INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    >'.↵
    -0.07
     /\.
    -0.07
    rest
    -0.07
     når
    -0.07
    Police
    -0.07
     paranoid
    -0.07
    xis
    -0.07
    脚下
    -0.07
    קרב
    -0.07
    orestation
    -0.07
    POSITIVE LOGITS
     ainda
    0.07
    0.07
     impres
    0.07
     الحال
    0.06
     synonymous
    0.06
    0.06
    ƨ
    0.06
     Świat
    0.06
     טוע
    0.06
    0.06
    Act Density 0.004%

    No Known Activations