INDEX
Negative Logits
lift
-0.07
pain
-0.06
substitute
-0.06
LTS
-0.06
baseline
-0.06
fist
-0.06
وي
-0.06
role
-0.06
dive
-0.06
턴
-0.06
POSITIVE LOGITS
-terrorism
0.07
Unsure
0.07
हमल
0.06
มกราคม
0.06
طب
0.06
Delhi
0.06
ignor
0.06
(("0.06
Uy
0.06
<>↵
0.06
Activations Density 0.101%