INDEX
Negative Logits
bt
-0.07
Kom
-0.06
freezer
-0.06
Rockefeller
-0.06
num
-0.06
.Master
-0.06
gender
-0.06
Lisa
-0.06
Kaepernick
-0.06
ераль
-0.06
POSITIVE LOGITS
_drive
0.08
代理
0.07
odic
0.07
Montreal
0.07
스는
0.07
/news
0.07
โต
0.06
_cats
0.06
enaire
0.06
theolog
0.06
Activations Density 0.228%