INDEX
Negative Logits
utto
-0.08
אינטר
-0.07
מסורת
-0.07
Esta
-0.07
builtin
-0.07
انتخاب
-0.07
Mistress
-0.07
buluş
-0.07
listening
-0.06
遗忘
-0.06
POSITIVE LOGITS
ли
0.08
الخار
0.07
ах
0.07
ят
0.07
caled
0.07
的人物
0.07
플
0.07
те
0.07
Φ
0.07
造成的
0.07
Activations Density 0.019%