INDEX
Negative Logits
rejected
-0.08
நில
-0.08
Lars
-0.07
Betrag
-0.07
분야
-0.07
dato
-0.07
dato
-0.07
DAT
-0.07
ಕ್ಷೇತ್ರ
-0.07
Charger
-0.07
POSITIVE LOGITS
camp
0.08
几点
0.08
ennium
0.08
initials
0.08
pavement
0.08
itrine
0.08
sandwich
0.08
осп
0.07
晨
0.07
Habit
0.07
Activations Density 0.003%