INDEX
Negative Logits
rule
-0.08
IPP
-0.08
printed
-0.08
āj
-0.08
armen
-0.07
paso
-0.07
ponsor
-0.07
PAIR
-0.07
-cle
-0.07
āji
-0.07
POSITIVE LOGITS
habitudes
0.09
пользователя
0.08
习
0.08
behavioral
0.08
$user
0.08
desk
0.08
惯
0.08
เม
0.08
安
0.08
ویه
0.07
Activations Density 0.006%