INDEX
Explanations
stereotypes dehumanization leading
New Auto-Interp
Negative Logits
或
0.55
或
0.48
hoặc
0.45
ή
0.44
atau
0.43
或者
0.43
嗎
0.42
বা
0.42
chave
0.41
eller
0.41
POSITIVE LOGITS
ಅನುಪಾತ
0.44
digitalisation
0.43
microprocessor
0.42
médioc
0.42
ас
0.42
ட்டைகோ
0.42
supplémentaires
0.41
personalisation
0.40
మాట్లాడుతూ
0.40
गेंदबाज
0.39
Activations Density 0.016%