INDEX
Negative Logits
很多
-0.07
dö
-0.07
όπως
-0.07
adet
-0.06
ичної
-0.06
baj
-0.06
そ
-0.06
svou
-0.06
ับม
-0.06
tasks
-0.06
POSITIVE LOGITS
лаж
0.07
책
0.06
okit
0.06
behalf
0.06
_Comm
0.06
.second
0.06
null
0.06
Estate
0.06
_COMPILE
0.06
直
0.06
Activations Density 0.008%