INDEX
Negative Logits
admiration
-0.08
Williams
-0.08
langen
-0.07
makeup
-0.07
Williams
-0.07
cred
-0.07
عا
-0.07
-rated
-0.07
_dash
-0.07
Cred
-0.07
POSITIVE LOGITS
wrapper
0.09
Wrapper
0.09
.wrap
0.08
fopen
0.08
dessus
0.08
.wrapper
0.08
imposed
0.08
atop
0.08
包装
0.08
herum
0.08
Activations Density 0.009%