INDEX
Negative Logits
Anchor
-0.09
天
-0.08
帳
-0.08
stove
-0.08
mills
-0.08
隊
-0.07
joe
-0.07
rec
-0.07
�
-0.07
iterations
-0.07
POSITIVE LOGITS
FLICT
0.08
Can't
0.08
070
0.08
FFD
0.08
Lim
0.08
করছি
0.08
hacerse
0.08
'https
0.08
_ATTACK
0.08
accordance
0.08
Activations Density 0.001%