INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     enak
    1.55
    ան
    1.48
    َح
    1.48
    Duel
    1.45
    o
    1.45
    שׁ
    1.35
    iscono
    1.34
    ov
    1.32
    ように
    1.32
    ことは
    1.32
    POSITIVE LOGITS
    Про
    1.83
    soever
    1.66
    1.57
    Ку
    1.52
     сотруд
    1.51
    Стра
    1.51
    1.50
    1.48
    1.46
    Источник
    1.45
    Act Density 0.006%

    No Known Activations