INDEX
Negative Logits
http
-0.08
‘l
-0.08
parler
-0.08
القول
-0.08
Thanksgiving
-0.07
deemed
-0.07
Annex
-0.07
trash
-0.07
വാർ
-0.07
Mayo
-0.07
POSITIVE LOGITS
flatter
0.08
ambitious
0.08
gef
0.08
uset
0.08
бир
0.08
俊
0.07
geluk
0.07
ush
0.07
ुआ
0.07
Pela
0.07
Activations Density 0.008%