INDEX
Negative Logits
('');↵↵-0.07
.com
-0.06
dirt
-0.06
('');↵-0.06
_Var
-0.06
intimid
-0.06
sanit
-0.06
кав
-0.06
bomb
-0.06
インタ
-0.06
POSITIVE LOGITS
reflex
0.18
Reflex
0.15
reflexivity
0.10
httpResponse
0.08
lex
0.07
flex
0.07
ileged
0.07
Regex
0.07
_mex
0.07
ension
0.07
Activations Density 0.002%