INDEX
Negative Logits
varios
-0.08
iscrimination
-0.07
.En
-0.06
ricerca
-0.06
роч
-0.06
리의
-0.06
ac
-0.06
oha
-0.06
knockout
-0.06
�
-0.06
POSITIVE LOGITS
GT
0.06
هد
0.06
SUR
0.06
▼
0.06
zvuky
0.06
�
0.06
dab
0.06
Tweet
0.06
wow
0.06
WHY
0.05
Activations Density 0.072%