INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ומש
    -0.08
     wagon
    -0.07
    illat
    -0.07
     delightful
    -0.07
     dużo
    -0.07
     אתה
    -0.07
     והת
    -0.07
     lots
    -0.07
     ואם
    -0.07
     Fiesta
    -0.07
    POSITIVE LOGITS
     indifer
    0.12
     indifferent
    0.11
     unem
    0.10
     fría
    0.09
     bureaucr
    0.09
     rigid
    0.09
     unwilling
    0.09
     overlook
    0.09
     холод
    0.09
     ríg
    0.09
    Act Density 0.028%

    No Known Activations