INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     journey
    -0.08
     lenta
    -0.08
     şart
    -0.08
     nove
    -0.08
     ನಿಯ
    -0.07
     vinden
    -0.07
     affine
    -0.07
    avaat
    -0.07
     journeys
    -0.07
     uur
    -0.07
    POSITIVE LOGITS
     demasiado
    0.10
     слишком
    0.09
     너무
    0.09
    ומות
    0.09
     лиш
    0.09
    лишком
    0.09
    Instead
    0.09
    IFIER
    0.08
     teveel
    0.08
     제대로
    0.08
    Act Density 0.007%

    No Known Activations