INDEX
Negative Logits
United
0.31
Zan
0.29
Mathieu
0.29
compat
0.29
Norway
0.28
截图
0.28
whatsoever
0.28
observability
0.27
ərb
0.27
ইসলাম
0.27
POSITIVE LOGITS
offend
0.35
بن
0.33
नाटक
0.33
ejercer
0.33
betont
0.32
게
0.32
scheint
0.32
teile
0.31
irritate
0.31
बनी
0.31
Activations Density 0.000%