INDEX
Negative Logits
hor
0.39
unab
0.39
יל
0.38
ufthansa
0.38
Mild
0.38
Turn
0.37
gall
0.37
堂
0.37
Recipient
0.37
tenant
0.37
POSITIVE LOGITS
皘
0.46
actitud
0.44
intage
0.40
carácter
0.38
起始
0.38
پیسې
0.38
އަ
0.38
стойчи
0.38
真實
0.37
さが
0.37
Activations Density 0.000%