INDEX
Negative Logits
compliment
-0.06
Profit
-0.06
insulting
-0.06
leet
-0.06
ency
-0.06
쉬
-0.06
�어
-0.06
sağlan
-0.06
поход
-0.06
anten
-0.06
POSITIVE LOGITS
.listdir
0.07
core
0.06
سنگ
0.06
:bg
0.06
(CG
0.06
errmsg
0.06
↵ ↵
0.06
頭
0.06
ेबस
0.06
полож
0.06
Activations Density 0.015%