INDEX
Negative Logits
stare
-0.10
drivetrain
-0.09
'er
-0.08
Spo
-0.08
Someone
-0.07
)?↵
-0.07
Ats
-0.07
Bezug
-0.07
’er
-0.07
diel
-0.07
POSITIVE LOGITS
逊
0.12
씩
0.09
不足
0.09
宽
0.09
متفاوت
0.09
inclin
0.09
妙
0.08
不错
0.08
rebellious
0.08
desvi
0.08
Activations Density 0.038%