INDEX
Explanations
expressions related to desires and preferences
New Auto-Interp
Negative Logits
تقاوى
-0.72
+#+#
-0.68
matchCondition
-0.67
Hentet
-0.52
pleaſure
-0.51
lun
-0.50
richTextPanel
-0.50
мәкал
-0.50
cloche
-0.50
&__
-0.49
POSITIVE LOGITS
crainte
0.50
Verlust
0.50
raszamy
0.47
avoid
0.47
nadzieję
0.46
Avoiding
0.46
visión
0.45
pozycji
0.45
prevención
0.45
Gefahr
0.45
Activations Density 0.385%