INDEX
Negative Logits
%),
-0.07
Membership
-0.06
Hä
-0.06
-Class
-0.06
پرد
-0.06
estudiantes
-0.06
elt
-0.06
-0.06
برخورد
-0.06
Bring
-0.05
POSITIVE LOGITS
猫
0.07
autical
0.07
disk
0.07
-platform
0.07
ไป
0.06
429
0.06
pler
0.06
TC
0.06
slun
0.06
activ
0.06
Activations Density 0.001%