INDEX
Negative Logits
resil
-0.08
trekking
-0.08
andro
-0.07
mens
-0.07
opp
-0.07
trat
-0.07
unar
-0.07
Gren
-0.07
precinct
-0.07
uphill
-0.07
POSITIVE LOGITS
embarrassed
0.07
الية
0.07
.IN
0.07
guz
0.07
_sleep
0.07
Dynamo
0.07
delayed
0.07
Yol
0.07
IJ
0.07
Baldwin
0.07
Activations Density 0.003%