INDEX
Negative Logits
Leonard
-0.08
Stevens
-0.07
.sp
-0.07
BUR
-0.07
linger
-0.07
-0.07
pann
-0.07
ిత
-0.07
delantero
-0.07
cock
-0.07
POSITIVE LOGITS
-old
0.09
际
0.09
별
0.09
hinweg
0.08
inteira
0.08
Musk
0.08
generaciones
0.08
동안
0.08
ago
0.07
sar
0.07
Activations Density 0.010%