INDEX
Negative Logits
un
0.84
ع
0.83
६
0.83
nach
0.82
u
0.82
𝐚
0.80
a
0.80
У
0.79
у
0.79
S
0.79
POSITIVE LOGITS
té
0.72
rét
0.65
ederek
0.64
retard
0.63
pless
0.62
waardoor
0.61
स्त्रीलिंग
0.61
anges
0.59
áticas
0.59
hogs
0.59
Activations Density 0.000%