INDEX
Negative Logits
(inflater
-0.08
enticator
-0.07
AFP
-0.07
枋
-0.07
edReader
-0.07
iens
-0.07
JW
-0.07
казать
-0.07
rotterdam
-0.07
Fashion
-0.07
POSITIVE LOGITS
managed
0.07
โฆ
0.06
โค
0.06
antenn
0.06
십시
0.06
_N
0.06
_choice
0.06
남
0.06
)))↵↵
0.06
حاج
0.06
Activations Density 0.002%