INDEX
Negative Logits
ruin
-0.09
can
-0.08
dj
-0.08
Jum
-0.08
RC
-0.08
Trivia
-0.08
�
-0.08
dz
-0.07
dfs
-0.07
ares
-0.07
POSITIVE LOGITS
�
0.09
dissect
0.08
Ba
0.07
ba
0.07
lia
0.07
profess
0.07
葡
0.07
�
0.07
க
0.07
데
0.07
Activations Density 0.003%