INDEX
Negative Logits
worrying
-0.07
\
-0.07
Machine
-0.07
严
-0.07
burgl
-0.06
类
-0.06
yp
-0.06
teenage
-0.06
้นท
-0.06
бит
-0.06
POSITIVE LOGITS
asurement
0.07
ATI
0.07
قل
0.06
Hos
0.06
_reaction
0.06
ccc
0.06
佐
0.06
-am
0.06
udiant
0.06
illum
0.06
Activations Density 0.006%