INDEX
Negative Logits
Suff
-0.08
ateur
-0.08
Watching
-0.08
ій
-0.08
891
-0.07
SCR
-0.07
outright
-0.07
stipend
-0.07
Gratis
-0.07
freien
-0.07
POSITIVE LOGITS
takeaway
0.12
notes
0.11
appa
0.09
പ്പെട്ട
0.09
cloak
0.08
note
0.08
人物
0.08
stay
0.08
момен
0.08
时候
0.08
Activations Density 0.028%