INDEX
Negative Logits
Pruitt
-0.07
Ἐ
-0.07
Middleton
-0.06
collapsed
-0.06
Savannah
-0.06
Disorder
-0.06
idiot
-0.06
Attend
-0.06
Ст
-0.06
/functions
-0.06
POSITIVE LOGITS
换了
0.07
ნ
0.06
eğer
0.06
Border
0.06
马克
0.06
mongo
0.06
'on
0.06
())
0.06
bra
0.06
拿了
0.06
Activations Density 0.033%