INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Spiel
    -0.08
     ответа
    -0.08
     التنفيذ
    -0.08
     spiel
    -0.08
     المعلومات
    -0.08
     cór
    -0.08
     કોર્�
    -0.08
     thông
    -0.08
     표현
    -0.07
     dennoch
    -0.07
    POSITIVE LOGITS
     vaccination
    0.09
    主人
    0.09
     hikers
    0.09
     refugees
    0.09
     students
    0.08
     superheroes
    0.08
     empowerment
    0.08
     pilgrims
    0.08
     bull
    0.08
     rising
    0.08
    Act Density 0.042%

    No Known Activations