INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    '],['
    -0.07
     aktar
    -0.06
     samostat
    -0.06
     öl
    -0.06
     locales
    -0.06
     Granted
    -0.06
    är
    -0.06
     čas
    -0.06
    우리
    -0.06
    Translated
    -0.06
    POSITIVE LOGITS
     classmates
    0.07
     voting
    0.06
     Life
    0.06
    >↵↵
    0.06
     life
    0.06
     peas
    0.06
    _BIN
    0.06
     queries
    0.06
     деле
    0.06
    flag
    0.06
    Act Density 0.000%

    No Known Activations