INDEX
Negative Logits
wend
-0.08
CAR
-0.08
надеж
-0.08
Leicester
-0.08
oooo
-0.08
λων
-0.07
Delhi
-0.07
ーワ
-0.07
Ν
-0.07
inä
-0.07
POSITIVE LOGITS
된
0.12
Boss
0.10
Bib
0.10
Boss
0.09
haem
0.09
菠菜
0.09
막
0.09
전
0.09
참
0.09
辣
0.09
Activations Density 0.002%