INDEX
Negative Logits
脾气
-0.07
che
-0.07
proof
-0.07
apl
-0.07
zi
-0.07
骑兵
-0.07
予
-0.07
Pron
-0.07
线
-0.06
cor
-0.06
POSITIVE LOGITS
دولة
0.07
וח
0.07
_AUD
0.07
האלה
0.07
鲱
0.07
honored
0.07
מש
0.07
.bank
0.07
phút
0.07
cents
0.07
Activations Density 0.004%