INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     nicknamed
    -0.07
    річ
    -0.07
     Flooring
    -0.07
                                                                                  
    -0.07
    'h
    -0.06
     diagnostics
    -0.06
     الجديد
    -0.06
    -proof
    -0.06
    сят
    -0.06
    ฟร
    -0.06
    POSITIVE LOGITS
     stereotypes
    0.07
     Mickey
    0.06
    0.06
     řekl
    0.06
     enclave
    0.06
     Gang
    0.06
     bosses
    0.06
     قط
    0.06
     слыш
    0.06
    _JOB
    0.06
    Act Density 0.014%

    No Known Activations