INDEX
Negative Logits
aph
-0.08
Laf
-0.08
ull
-0.08
jay
-0.07
rob
-0.07
emigr
-0.07
sahibi
-0.07
andler
-0.07
병
-0.07
adh
-0.07
POSITIVE LOGITS
okvir
0.12
rather
0.11
vielmehr
0.10
лишь
0.10
lediglich
0.10
скорее
0.10
בלבד
0.09
illustrative
0.09
方便
0.09
tentative
0.09
Activations Density 0.055%