INDEX
Negative Logits
)("-0.07
.Security
-0.06
understand
-0.06
کور
-0.06
prix
-0.06
rowth
-0.06
_pressure
-0.06
_ENC
-0.06
sought
-0.06
ladığı
-0.06
POSITIVE LOGITS
прев
0.07
しまう
0.07
ترب
0.06
Mirage
0.06
تبدیل
0.06
roar
0.06
Laud
0.06
trick
0.06
tit
0.06
经营
0.06
Activations Density 0.030%