INDEX
Negative Logits
frank
-0.07
rts
-0.07
ぬ
-0.06
inspires
-0.06
lu
-0.06
tertiary
-0.06
ník
-0.06
extras
-0.06
�
-0.06
arrow
-0.06
POSITIVE LOGITS
\P
0.07
!“
0.07
万円
0.06
istency
0.06
戒
0.06
Tales
0.06
siyaset
0.06
countered
0.06
_Control
0.06
pár
0.06
Activations Density 0.025%