INDEX
Negative Logits
Rep
-0.08
origins
-0.08
Origins
-0.08
That
-0.07
nimmt
-0.07
ور
-0.07
-0.07
rep
-0.07
CO
-0.07
wob
-0.07
POSITIVE LOGITS
summarize
0.08
ುದ
0.08
Nikki
0.07
Kh
0.07
Quer
0.07
reina
0.07
unauthorized
0.07
Pang
0.07
discharge
0.07
Pach
0.07
Activations Density 0.002%