INDEX
Negative Logits
allowed
-0.08
Feedback
-0.08
_feedback
-0.08
feedback
-0.08
feedback
-0.07
bothering
-0.07
speech
-0.07
ту
-0.07
الدراسة
-0.07
عدة
-0.07
POSITIVE LOGITS
semper
0.10
Sidebar
0.10
chama
0.09
(pkg
0.09
llvm
0.08
menjal
0.08
ચલ
0.08
jardin
0.08
arteries
0.08
લી
0.08
Activations Density 0.001%