INDEX
Negative Logits
psych
-0.08
Mute
-0.08
mount
-0.07
نور
-0.07
السو
-0.07
الألم
-0.07
Australia's
-0.07
714
-0.07
prä
-0.07
החר
-0.07
POSITIVE LOGITS
작성
0.08
도를
0.08
_rules
0.08
aid
0.08
slim
0.08
വ്യക്തമ
0.08
existence
0.07
surrendered
0.07
publik
0.07
cliffs
0.07
Activations Density 0.004%