INDEX
Negative Logits
WB
-0.08
ז
-0.08
sparse
-0.07
придерж
-0.07
eti
-0.07
במקרה
-0.07
istream
-0.07
级
-0.07
遵
-0.07
.me
-0.07
POSITIVE LOGITS
insecurity
0.10
curities
0.09
insecure
0.09
fears
0.09
improv
0.08
unsure
0.08
nous
0.08
、不
0.08
hairs
0.08
udades
0.08
Activations Density 0.005%