INDEX
Negative Logits
stab
-0.08
romans
-0.08
luk
-0.08
wis
-0.08
anc
-0.08
ッグ
-0.07
inge
-0.07
UVW
-0.07
കാസ
-0.07
Basics
-0.07
POSITIVE LOGITS
conceal
0.09
собой
0.09
происх
0.09
mistakes
0.08
Herkunft
0.08
Реп
0.08
lineage
0.08
compañ
0.08
�
0.07
unethical
0.07
Activations Density 0.023%