INDEX
Explanations
the weekend, love, office, explosion
New Auto-Interp
Negative Logits
ultimatum
0.28
oliberal
0.27
outspoken
0.27
CFRP
0.26
ترین
0.25
ERISA
0.25
deont
0.25
democrat
0.24
Estamos
0.24
The
0.24
POSITIVE LOGITS
คุณ
0.26
bạn
0.26
on
0.24
الطعام
0.24
症状
0.23
vás
0.22
fréquentes
0.22
bệnh
0.22
ৰ
0.22
્રી
0.22
Activations Density 0.704%