INDEX
Negative Logits
Raja
-0.08
pf
-0.08
WL
-0.08
ww
-0.08
WL
-0.07
442
-0.07
Va
-0.07
riere
-0.07
perf
-0.07
וך
-0.07
POSITIVE LOGITS
glimps
0.09
cul
0.09
blind
0.08
tetr
0.08
有人
0.08
雀
0.07
Tet
0.07
Blind
0.07
KY
0.07
causal
0.07
Activations Density 0.100%