INDEX
Negative Logits
jail
-0.09
ction
-0.09
cina
-0.08
imbalance
-0.08
itivity
-0.08
hler
-0.08
jerk
-0.08
mania
-0.08
emming
-0.08
alcon
-0.08
POSITIVE LOGITS
观
0.13
觀
0.10
waving
0.09
beob
0.08
Observ
0.08
관
0.08
_tasks
0.08
�
0.07
ыла
0.07
시
0.07
Activations Density 0.001%