INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     cùng
    -0.07
    .(
    -0.06
    -0.06
    ของผ
    -0.06
     zoals
    -0.06
     Tone
    -0.06
    Ret
    -0.06
     unless
    -0.06
     rugs
    -0.06
     cz
    -0.06
    POSITIVE LOGITS
     história
    0.18
     historia
    0.18
     storia
    0.16
    histoire
    0.13
     histoire
    0.10
     истории
    0.10
     Geschichte
    0.10
     історії
    0.10
    ,error
    0.07
    ollapsed
    0.07
    Act Density 0.008%

    No Known Activations