INDEX
Negative Logits
Inser
-0.08
잡
-0.08
trat
-0.07
Elimin
-0.07
Leasing
-0.07
$o
-0.07
算
-0.07
$s
-0.07
-0.07
obi
-0.07
POSITIVE LOGITS
worship
0.09
hur
0.08
मुक्त
0.08
�
0.08
spectroscopy
0.08
distra
0.08
distract
0.07
activities
0.07
cand
0.07
�
0.07
Activations Density 0.005%