INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ้องก
    -0.08
     also
    -0.07
    ерше
    -0.07
    -0.07
    خرج
    -0.07
    ěji
    -0.07
     что
    -0.07
     بلکه
    -0.06
    革命
    -0.06
    Ath
    -0.06
    POSITIVE LOGITS
     per
    0.09
    -per
    0.08
    _per
    0.07
     Spartan
    0.07
     PER
    0.07
    лер
    0.07
     Premiere
    0.07
     "";↵↵
    0.07
     Sur
    0.06
    no
    0.06
    Act Density 0.016%

    No Known Activations