INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     כלל
    -0.09
    vana
    -0.08
     חג
    -0.08
    -0.08
     dirig
    -0.08
     напрям
    -0.08
     сем
    -0.08
     sao
    -0.08
     ವಿಮ
    -0.08
    irections
    -0.08
    POSITIVE LOGITS
     rispetto
    0.09
     гораздо
    0.08
    Scale
    0.08
    _scale
    0.07
     scale
    0.07
    ",↵
    0.07
    Rand
    0.07
    Compared
    0.07
     scales
    0.07
    0.07
    Act Density 0.087%

    No Known Activations