INDEX
Negative Logits
Tk
-0.07
�
-0.07
rgb
-0.07
.EditorButton
-0.06
memberof
-0.06
'є
-0.06
IDD
-0.06
phức
-0.06
맥
-0.06
ريد
-0.06
POSITIVE LOGITS
violations
0.07
onne
0.07
_until
0.07
geçir
0.07
_rd
0.07
とする
0.07
stunned
0.07
shorts
0.07
analyze
0.06
conscience
0.06
Activations Density 0.015%