INDEX
Negative Logits
Probe
-0.07
Instruction
-0.07
حت
-0.06
icia
-0.06
-0.06
introduction
-0.06
-0.06
-0.06
رس
-0.06
-0.06
POSITIVE LOGITS
sunuz
0.07
براى
0.06
başar
0.06
LONG
0.06
Tomas
0.06
нім
0.06
طة
0.06
Franti
0.06
галузі
0.06
_datas
0.06
Activations Density 0.022%