INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ові
    -0.07
     mainland
    -0.07
     males
    -0.07
    cia
    -0.06
    ileceği
    -0.06
    -0.06
     Barnes
    -0.06
     traverse
    -0.06
     translator
    -0.06
    це
    -0.06
    POSITIVE LOGITS
     jon
    0.06
    ursors
    0.06
     ignor
    0.06
     différent
    0.06
    |=
    0.06
    .answers
    0.06
     jeune
    0.06
    _low
    0.06
    0.05
     spice
    0.05
    Act Density 0.042%

    No Known Activations