INDEX
Negative Logits
-derived
-0.08
phil
-0.06
UD
-0.06
(hidden
-0.06
MH
-0.06
Nx
-0.06
ім
-0.06
LRV
-0.06
引き
-0.06
vl
-0.06
POSITIVE LOGITS
zelf
0.07
下午
0.07
istra
0.07
.regex
0.07
Strange
0.07
acağ
0.07
entlich
0.07
slight
0.06
.News
0.06
beginnings
0.06
Activations Density 0.015%