INDEX
Negative Logits
Nothing
-0.07
units
-0.07
расстоя
-0.07
Holding
-0.07
_recovery
-0.06
¯¯
-0.06
営
-0.06
Gy
-0.06
scales
-0.06
sluts
-0.06
POSITIVE LOGITS
as
0.09
ως
0.06
الله
0.06
regardless
0.06
اسي
0.06
ipt
0.06
ゲ
0.06
응
0.06
fig
0.06
فران
0.06
Activations Density 0.021%