INDEX
Negative Logits
ux
-0.08
Greg
-0.08
_AR
-0.08
محف
-0.08
selle
-0.07
seus
-0.07
Hogwarts
-0.07
yuk
-0.07
induced
-0.07
_multiple
-0.07
POSITIVE LOGITS
。↵↵
0.09
。
0.08
rubber
0.08
。",↵
0.08
bemerk
0.08
rhetorical
0.08
என்பதை
0.08
என்ப
0.08
ולר
0.07
соң
0.07
Activations Density 0.030%