INDEX
Negative Logits
logical
-0.07
-0.07
ولك
-0.06
Blanc
-0.06
shows
-0.06
℃
-0.06
helm
-0.06
valid
-0.06
malls
-0.06
Featuring
-0.06
POSITIVE LOGITS
clit
0.06
btw
0.06
temptation
0.06
/mit
0.06
instances
0.05
linebacker
0.05
LOAT
0.05
ertificate
0.05
_term
0.05
firearms
0.05
Activations Density 0.008%