INDEX
Negative Logits
بعض
-0.07
過
-0.07
권
-0.07
يأتي
-0.07
לטובת
-0.07
/of
-0.07
butt
-0.07
errorMessage
-0.06
أتي
-0.06
erle
-0.06
POSITIVE LOGITS
威海
0.08
Salem
0.07
.part
0.07
treatments
0.07
/foo
0.07
semiclassical
0.07
-use
0.07
hä
0.07
reatment
0.07
SEA
0.07
Activations Density 0.005%