INDEX
Negative Logits
Fort
-0.06
-0.06
/DTD
-0.06
misunderstanding
-0.06
مرات
-0.06
hwnd
-0.06
itemId
-0.06
_FIRE
-0.06
XD
-0.06
pad
-0.06
POSITIVE LOGITS
g
0.10
(g
0.10
g
0.09
manned
0.08
-g
0.08
/gl
0.07
G
0.07
G
0.07
면서
0.07
gaz
0.07
Activations Density 0.010%