INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ‍♀️
    2.03
     краса
    1.87
    1.85
    iz
    1.77
    ей
    1.77
    не
    1.73
    ig
    1.70
    ‍♂️
    1.59
     atual
    1.57
    ו
    1.57
    POSITIVE LOGITS
    ة
    2.16
    kého
    2.08
    س
    2.03
    kali
    1.97
    ные
    1.79
    britannien
    1.75
    ्टी
    1.74
    ą
    1.73
    функциона
    1.73
    きます
    1.72
    Act Density 0.055%

    No Known Activations