INDEX
Negative Logits
πλη
-0.07
مض
-0.06
aime
-0.06
OWL
-0.06
به
-0.06
role
-0.06
Var
-0.06
eligibility
-0.06
.exp
-0.06
hava
-0.06
POSITIVE LOGITS
↵ ↵↵
0.07
↵↵↵↵↵↵
0.07
خوبی
0.06
cip
0.06
)↵↵↵↵↵↵↵↵
0.06
략
0.06
майже
0.06
ningún
0.06
Return
0.06
sağlayan
0.06
Activations Density 0.011%