INDEX
Negative Logits
acteur
-0.08
Bub
-0.08
Eleanor
-0.08
concurr
-0.08
IIT
-0.07
shred
-0.07
Pixar
-0.07
Beste
-0.07
_compute
-0.07
fiction
-0.07
POSITIVE LOGITS
moss
0.10
الس
0.09
坊
0.08
ور
0.08
المش
0.08
葉
0.08
rooftop
0.08
المستخدم
0.08
週
0.07
帽
0.07
Activations Density 0.004%