INDEX
Negative Logits
ultrap
-0.10
aufreg
-0.08
spikes
-0.08
élevé
-0.08
Configuration
-0.08
Elevated
-0.08
sinn
-0.08
Shall
-0.07
Disable
-0.07
elegante
-0.07
POSITIVE LOGITS
愿
0.11
willingness
0.11
willingly
0.09
回应
0.08
认可
0.08
支持
0.08
awanda
0.08
goodwill
0.08
willing
0.08
grud
0.08
Activations Density 0.187%