INDEX
Negative Logits
jamais
-0.07
hiro
-0.07
スタ
-0.06
plunder
-0.06
hid
-0.06
roman
-0.06
нимать
-0.06
leur
-0.06
Richmond
-0.06
Andreas
-0.06
POSITIVE LOGITS
simple
0.09
simple
0.09
.simple
0.09
Simple
0.09
_simple
0.08
_SIMPLE
0.08
_easy
0.07
.Simple
0.07
/simple
0.07
Simple
0.07
Activations Density 0.022%