INDEX
Negative Logits
warf
-0.07
川
-0.07
welt
-0.07
mode
-0.07
906
-0.06
₃
-0.06
bao
-0.06
'na
-0.06
.words
-0.06
taxes
-0.06
POSITIVE LOGITS
fence
0.07
.us
0.06
secure
0.06
گاهی
0.06
skepticism
0.06
(MethodImplOptions
0.06
audits
0.06
υ
0.05
adil
0.05
insanlar
0.05
Activations Density 0.008%