INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    unnel
    -0.07
     świad
    -0.07
     HTML
    -0.07
    هو
    -0.07
    محك
    -0.07
    Newton
    -0.06
    ڀ
    -0.06
    -0.06
     Tel
    -0.06
    IOC
    -0.06
    POSITIVE LOGITS
     печ
    0.07
    那里
    0.07
     reception
    0.07
    下げ
    0.06
    inine
    0.06
     כאלה
    0.06
    *B
    0.06
    _GRA
    0.06
     uplifting
    0.06
    出差
    0.06
    Act Density 0.005%

    No Known Activations