INDEX
Explanations
references to emotions and psychological states
New Auto-Interp
Negative Logits
twimg
-0.80
Manbalar
-0.80
ագրություններ
-0.77
Sklici
-0.76
InputBorder
-0.73
olingo
-0.73
-0.71
ädie
-0.70
BagConstraints
-0.70
Искәрмәләр
-0.68
POSITIVE LOGITS
fondi
0.60
gradualmente
0.56
#
0.55
gewel
0.54
vinto
0.53
nagu
0.52
terase
0.50
dovrebbero
0.49
ordinaria
0.49
préparé
0.49
Activations Density 0.495%