INDEX
Negative Logits
unity
-0.07
moral
-0.07
kariy
-0.06
chẳng
-0.06
яття
-0.06
argo
-0.06
-destruct
-0.06
uniformly
-0.06
مکان
-0.06
Tento
-0.06
POSITIVE LOGITS
before
0.08
Before
0.08
Before
0.08
before
0.07
carved
0.06
OUS
0.06
quences
0.06
окон
0.06
.after
0.06
979
0.06
Activations Density 0.024%