INDEX
Negative Logits
gd
-0.07
-de
-0.07
=size
-0.07
ice
-0.06
FI
-0.06
icht
-0.06
Zus
-0.06
al
-0.06
unit
-0.06
:message
-0.06
POSITIVE LOGITS
knowing
0.08
Apple
0.08
남자
0.07
혁
0.06
erf
0.06
loan
0.06
Apple
0.06
सन
0.06
урок
0.06
rapped
0.06
Activations Density 0.002%