INDEX
Negative Logits
ao
-0.07
REC
-0.07
&&
-0.06
aos
-0.06
>s
-0.06
Symbol
-0.06
ăng
-0.06
доч
-0.06
ss
-0.06
Token
-0.06
POSITIVE LOGITS
Bulletin
0.09
Bull
0.08
bul
0.08
bull
0.08
bull
0.08
uckles
0.07
Bulletin
0.07
Bul
0.07
bully
0.07
bullying
0.07
Activations Density 0.014%