INDEX
Negative Logits
лише
-0.07
warmed
-0.07
götür
-0.07
-service
-0.07
喝
-0.07
detectors
-0.07
соз
-0.07
ляем
-0.06
小姐
-0.06
enerated
-0.06
POSITIVE LOGITS
Kamp
0.07
Anders
0.07
↵
0.07
Baron
0.07
도
0.06
0.06
0.06
0.06
pers
0.06
,n
0.06
Activations Density 0.014%