INDEX
Negative Logits
�
-0.07
楒
-0.07
泜
-0.07
啴
-0.07
棓
-0.07
влад
-0.07
מטופ
-0.07
lineWidth
-0.06
🎲
-0.06
rokes
-0.06
POSITIVE LOGITS
回
0.08
%
0.07
⽇
0.07
��
0.07
Squared
0.07
권
0.07
toxicity
0.07
-util
0.07
ADDING
0.06
dB
0.06
Activations Density 0.014%