INDEX
Negative Logits
ub
-0.09
Sorry
-0.08
fisc
-0.08
Ahmad
-0.07
DEN
-0.07
veil
-0.07
Therapist
-0.07
ūt
-0.07
autob
-0.07
Lucas
-0.07
POSITIVE LOGITS
Diffuse
0.09
fut
0.09
Hom
0.08
framed
0.08
fil
0.08
Prec
0.08
issima
0.08
Nah
0.07
diffuse
0.07
Pok
0.07
Activations Density 0.009%