INDEX
Negative Logits
plain
-0.07
spr
-0.07
gold
-0.06
users
-0.06
flaws
-0.06
.band
-0.06
lj
-0.06
.Record
-0.06
holes
-0.06
740
-0.06
POSITIVE LOGITS
]?
0.07
ABCDEFGHI
0.07
있고
0.06
เทศ
0.06
)})
0.06
oppression
0.06
-init
0.06
арат
0.06
adult
0.06
elerik
0.06
Activations Density 0.006%