INDEX
Negative Logits
wen
-0.08
देख
-0.08
fring
-0.08
factions
-0.07
ची
-0.07
toxic
-0.07
tastes
-0.07
Proceed
-0.07
frig
-0.07
nobody
-0.07
POSITIVE LOGITS
Leop
0.10
Bonn
0.09
నే
0.08
Θε
0.08
separately
0.08
hil
0.08
-अलग
0.08
ியே
0.08
পৃথ
0.08
والاج
0.08
Activations Density 0.007%