INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ichtigen
    -0.08
    саж
    -0.08
    ώς
    -0.08
    াস্ত
    -0.08
    -0.08
    יכער
    -0.08
     қою
    -0.07
     хорош
    -0.07
    ינ
    -0.07
    込み
    -0.07
    POSITIVE LOGITS
    /X
    0.14
    treme
    0.12
    =X
    0.11
    ,X
    0.11
    avier
    0.11
    :X
    0.10
     Jinping
    0.10
    .X
    0.10
    ħra
    0.10
    qqaat
    0.10
    Act Density 0.043%

    No Known Activations