INDEX
Negative Logits
oper
-0.08
suffix
-0.08
shape
-0.08
contract
-0.07
खात
-0.07
ún
-0.07
List
-0.07
भग
-0.07
notion
-0.07
integrante
-0.07
POSITIVE LOGITS
deliberately
0.10
intentionally
0.09
jäm
0.08
acab
0.08
정책
0.07
공개
0.07
aution
0.07
tegenover
0.07
裸
0.07
0.07
Activations Density 0.168%