INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    𝐬
    3.49
    𝐞
    3.34
    𝐫
    3.01
    𝐢
    3.01
     conscience
    2.84
    𝐝
    2.81
    ために
    2.66
    𝐨
    2.65
    das
    2.62
    ente
    2.62
    POSITIVE LOGITS
    ुका
    2.84
    ூழ
    2.74
    こんな
    2.70
    e
    2.68
    2.59
    ют
    2.57
    i
    2.56
    ികിത്സ
    2.54
    urence
    2.52
     setattr
    2.51
    Act Density 0.061%

    No Known Activations