INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ска
    -0.07
     Asia
    -0.07
    .Toolkit
    -0.06
    هد
    -0.06
     القدم
    -0.06
     اختصاص
    -0.06
     homicide
    -0.06
     payload
    -0.06
    .is
    -0.06
    -0.06
    POSITIVE LOGITS
    Ì
    0.07
     sure
    0.06
    0.06
    …↵↵↵↵
    0.06
     perché
    0.06
    					    
    0.06
    Dod
    0.06
    _ENCODE
    0.06
     swear
    0.06
    ––
    0.06
    Act Density 0.001%

    No Known Activations