INDEX
Negative Logits
geni
-0.08
excursion
-0.08
ong
-0.08
mener
-0.07
cause
-0.07
imum
-0.07
-0.07
verv
-0.07
hir
-0.07
duur
-0.07
POSITIVE LOGITS
政
0.09
aikaan
0.08
החלט
0.08
accolades
0.07
endowed
0.07
көз
0.07
арналған
0.07
ದು
0.07
في
0.07
ました
0.07
Activations Density 0.030%