INDEX
Negative Logits
purifier
-0.09
ler
-0.08
alug
-0.07
kov
-0.07
chal
-0.07
pollution
-0.07
fortawesome
-0.07
Nest
-0.07
cruelty
-0.07
Santa
-0.07
POSITIVE LOGITS
Coment
0.08
equally
0.08
ไข
0.08
Rabb
0.08
ejercicios
0.07
föl
0.07
Outra
0.07
dhin
0.07
creado
0.07
Escr
0.07
Activations Density 0.003%