INDEX
Negative Logits
WORDS
-0.07
280
-0.06
mma
-0.06
(simp
-0.06
-language
-0.06
scoff
-0.06
qw
-0.06
_movie
-0.06
各种
-0.06
lanır
-0.06
POSITIVE LOGITS
AUT
0.07
ào
0.07
instant
0.07
uz
0.06
μετα
0.06
٬
0.06
/********************************
0.06
testing
0.06
?',↵
0.06
ua
0.06
Activations Density 0.019%