INDEX
Negative Logits
erver
-0.07
computers
-0.07
metro
-0.06
.cycle
-0.06
hb
-0.06
suicidal
-0.06
names
-0.06
motorists
-0.06
шк
-0.06
semble
-0.06
POSITIVE LOGITS
म
0.07
^{0.06
Durch
0.06
0.06
Cooking
0.06
"',
0.06
/(
0.06
!=(
0.06
vyt
0.06
>".
0.06
Activations Density 0.056%