INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    encrypt
    -0.07
    -0.07
    izable
    -0.07
     دانشنامه
    -0.07
    ento
    -0.07
    Talk
    -0.06
    _lvl
    -0.06
    มหาว
    -0.06
    employee
    -0.06
    -zero
    -0.06
    POSITIVE LOGITS
     prim
    0.13
     Prim
    0.11
    Prim
    0.10
     primer
    0.10
     Primer
    0.08
    prim
    0.08
     cris
    0.07
    мами
    0.07
    mi
    0.07
    /non
    0.07
    Act Density 0.003%

    No Known Activations