INDEX
Negative Logits
:-↵
-0.07
Cortex
-0.07
resses
-0.07
quoi
-0.07
diesem
-0.07
(answer
-0.07
ौकर
-0.07
bana
-0.07
prostředí
-0.06
lunch
-0.06
POSITIVE LOGITS
swear
0.06
반
0.06
‐‐
0.06
DAR
0.06
�
0.06
/sign
0.06
disproportionate
0.06
itaire
0.05
’S
0.05
throwable
0.05
Activations Density 0.002%