INDEX
Negative Logits
(select
-0.08
hemm
-0.08
nub
-0.08
(ans
-0.08
秘书
-0.07
verbosity
-0.07
verwaltung
-0.07
Secretary
-0.07
complains
-0.07
ेब
-0.07
POSITIVE LOGITS
უნ
0.08
preceded
0.08
pulse
0.08
сила
0.08
друг
0.08
हवा
0.08
happening
0.08
幸福
0.07
powerful
0.07
પ્રેમ
0.07
Activations Density 0.017%