INDEX
Negative Logits
uncont
-0.07
mercy
-0.07
volt
-0.07
十二
-0.07
эффектив
-0.06
电
-0.06
roadcast
-0.06
Fuck
-0.06
-oper
-0.06
iếu
-0.06
POSITIVE LOGITS
adorned
0.12
adorn
0.11
proč
0.08
飾
0.07
draped
0.07
embell
0.07
trang
0.07
.scalatest
0.06
'nde
0.06
trimmed
0.06
Activations Density 0.010%