INDEX
Negative Logits
healing
-0.07
to
-0.07
’nda
-0.07
ar
-0.07
YouTube
-0.07
AR
-0.07
Omar
-0.06
TOR
-0.06
URA
-0.06
YES
-0.06
POSITIVE LOGITS
первого
0.09
ніх
0.08
трех
0.07
нього
0.07
codegen
0.07
ersten
0.07
трьох
0.07
этого
0.07
ном
0.07
енного
0.07
Activations Density 0.083%