INDEX
Explanations
references to emotional states or relationships
New Auto-Interp
Negative Logits
à¸Ļà¸Ħร
-0.08
اتÛĮ
-0.07
weg
-0.07
ossier
-0.07
eton
-0.07
warz
-0.07
ÑĮ
-0.07
anth
-0.06
flt
-0.06
ê´Ģ
-0.06
POSITIVE LOGITS
echa
0.08
hausen
0.08
naire
0.07
evice
0.07
ez
0.07
ing
0.07
naires
0.07
-league
0.07
ahn
0.07
eb
0.07
Activations Density 0.017%