INDEX
Negative Logits
:nth
-0.07
_resp
-0.06
nije
-0.06
.ul
-0.06
ощ
-0.06
thee
-0.06
utf
-0.06
iets
-0.06
Bose
-0.06
犯罪
-0.06
POSITIVE LOGITS
tables
0.07
ôt
0.07
park
0.07
sembling
0.06
Selector
0.06
darn
0.06
oven
0.06
uj
0.06
CONS
0.06
spy
0.06
Activations Density 0.005%