INDEX
Negative Logits
corona
-0.09
ás
-0.08
네
-0.08
előtt
-0.07
emas
-0.07
کٹ
-0.07
кад
-0.07
elemento
-0.07
_CHILD
-0.07
كس
-0.07
POSITIVE LOGITS
/preferences
0.15
preferences
0.14
preferences
0.13
_preferences
0.13
Preferences
0.12
preference
0.12
Preferences
0.11
preferencias
0.11
cravings
0.11
.preferences
0.11
Activations Density 0.012%