INDEX
Negative Logits
女
-0.09
czego
-0.08
付款
-0.08
brib
-0.08
oko
-0.07
actress
-0.07
Tile
-0.07
указ
-0.07
Kath
-0.07
483
-0.07
POSITIVE LOGITS
marrow
0.09
Randolph
0.08
Cil
0.08
taxable
0.08
переж
0.07
alan
0.07
Ça
0.07
Rangers
0.07
恶
0.07
ITable
0.07
Activations Density 0.001%