INDEX
Negative Logits
mocking
0.51
碜
0.47
harassing
0.47
học
0.46
headband
0.46
haf
0.46
त्यात
0.46
harass
0.45
chaud
0.45
mussten
0.44
POSITIVE LOGITS
для
0.49
கிட்டத்தட்ட
0.49
Sites
0.48
अब
0.47
のための
0.46
現在
0.46
elés
0.46
現
0.46
Elon
0.45
OL
0.45
Activations Density 0.028%