INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    𝐠
    1.34
    𝐮
    1.28
    𝐢
    1.27
    1.26
    ر
    1.21
    ところ
    1.21
    ść
    1.16
    𝐲
    1.16
    ことになる
    1.15
     eben
    1.13
    POSITIVE LOGITS
    1.06
     stan
    0.99
    TIMESTAMPDIFF
    0.87
    0.87
    شمند
    0.85
    keye
    0.85
     longtemps
    0.83
    Σ
    0.83
    перед
    0.82
     ingen
    0.81
    Act Density 0.009%

    No Known Activations