INDEX
Negative Logits
yasal
-0.07
geçerli
-0.07
ADF
-0.07
Till
-0.07
plo
-0.06
herk
-0.06
taxonomy
-0.06
rab
-0.06
army
-0.06
/(
-0.06
POSITIVE LOGITS
TES
0.07
dont
0.07
dont
0.07
international
0.06
sing
0.06
영어
0.06
benef
0.06
only
0.06
lene
0.06
разных
0.06
Activations Density 0.024%