INDEX
Negative Logits
soudu
-0.07
((((
-0.06
COD
-0.06
=~
-0.06
Wife
-0.06
bonus
-0.06
bý
-0.06
τους
-0.06
ﻣ
-0.06
utils
-0.06
POSITIVE LOGITS
activities
0.07
actividades
0.07
让我
0.07
Lic
0.06
TRUE
0.06
plain
0.06
/',↵
0.06
LOWER
0.06
рив
0.06
err
0.06
Activations Density 0.049%