INDEX
Negative Logits
員
-0.08
answering
-0.08
erg
-0.08
息
-0.07
HIV
-0.07
gira
-0.07
rist
-0.07
leider
-0.07
ก่อน
-0.07
říklad
-0.07
POSITIVE LOGITS
bucket
0.09
-American
0.09
yol
0.08
159
0.08
Moon
0.08
pork
0.08
mortar
0.08
enclave
0.08
emo
0.08
income
0.08
Activations Density 0.010%