INDEX
Negative Logits
大家
-0.08
验证
-0.07
Ori
-0.07
�
-0.07
-0.07
摆
-0.07
Vir
-0.07
ambres
-0.07
触
-0.07
AD
-0.07
POSITIVE LOGITS
Similarly
0.09
n't
0.09
остальных
0.09
Tec
0.09
Similarly
0.09
hingegen
0.08
invece
0.08
'':↵
0.08
കുറ്റ
0.08
ayrıca
0.08
Activations Density 0.130%