INDEX
Negative Logits
knobs
-0.06
NOTES
-0.06
arf
-0.06
그림
-0.06
принимать
-0.06
-0.06
CONDITIONS
-0.06
ル
-0.06
(Book
-0.06
ماری
-0.06
POSITIVE LOGITS
Jihad
0.12
jihadists
0.11
jihad
0.10
ihad
0.09
jih
0.08
jihadist
0.08
plaintiffs
0.07
shake
0.07
PLAY
0.07
')}>↵
0.06
Activations Density 0.001%