INDEX
Negative Logits
339
-0.07
speaker
-0.06
354
-0.06
134
-0.06
る
-0.06
cyc
-0.06
ไล
-0.06
932
-0.06
ials
-0.06
319
-0.06
POSITIVE LOGITS
unintention
0.07
.Alignment
0.06
etros
0.06
ocumented
0.06
ุตสาห
0.06
[H
0.06
Hilton
0.06
Tehran
0.06
Interested
0.06
(QtGui
0.06
Activations Density 0.001%