INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Govern
    -0.07
     første
    -0.07
     refining
    -0.07
    -0.07
    班子
    -0.06
     vazgeç
    -0.06
    lst
    -0.06
     hus
    -0.06
     cakes
    -0.06
    ڸ
    -0.06
    POSITIVE LOGITS
     Shelley
    0.07
     parler
    0.07
    ИН
    0.07
    出現
    0.07
    Ser
    0.07
     ייתכן
    0.07
     intoxic
    0.07
     Kiev
    0.07
     adolescence
    0.06
    .Reg
    0.06
    Act Density 0.001%

    No Known Activations