INDEX
Negative Logits
가
-0.09
�
-0.08
adel
-0.08
�
-0.08
(cl
-0.07
DU
-0.07
perf
-0.07
potent
-0.07
�
-0.07
Kish
-0.07
POSITIVE LOGITS
dare
0.08
furthermore
0.08
Herd
0.08
управ
0.08
Sect
0.07
heck
0.07
пожалуйста
0.07
Stanton
0.07
THEM
0.07
honestly
0.07
Activations Density 0.109%