INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    t
    1.51
    ка
    1.39
     Sono
    1.25
     Qua
    1.23
     Tutto
    1.23
    ться
    1.20
    دا
    1.18
    可以
    1.17
    جري
    1.17
    1.16
    POSITIVE LOGITS
    1.25
    1.12
     arrête
    1.09
    atorial
    1.08
     arrêté
    1.08
    هایی
    1.05
    °
    1.05
    ି
    1.04
    了很多
    1.02
     yüzden
    1.02
    Act Density 0.001%

    No Known Activations