INDEX
Negative Logits
när
-0.08
dilig
-0.08
clair
-0.08
lev
-0.08
-0.08
dough
-0.07
unde
-0.07
呵
-0.07
unders
-0.07
/a
-0.07
POSITIVE LOGITS
tz
0.08
Might
0.08
txn
0.08
Bandar
0.08
tan
0.08
मे
0.08
tempting
0.07
mdash
0.07
虎
0.07
fore
0.07
Activations Density 0.032%