INDEX
Negative Logits
irritate
0.39
ދު
0.39
правля
0.37
вечер
0.36
电源
0.36
সম্র
0.35
entferne
0.35
шибка
0.34
學院
0.34
Нау
0.34
POSITIVE LOGITS
cens
0.78
Cens
0.70
censor
0.62
cens
0.58
censorship
0.55
censored
0.50
CEN
0.47
censure
0.46
цен
0.44
cene
0.44
Activations Density 0.000%