INDEX
Negative Logits
içerisinde
-0.07
(instruction
-0.07
Wealth
-0.07
تلف
-0.07
adjective
-0.07
était
-0.06
skillet
-0.06
涮
-0.06
ald
-0.06
PrintWriter
-0.06
POSITIVE LOGITS
Managed
0.07
روا
0.07
formations
0.07
Пос
0.07
colourful
0.07
Tubes
0.07
ornaments
0.07
ורות
0.07
在我
0.06
genres
0.06
Activations Density 0.002%