INDEX
Negative Logits
Hamas
-0.08
amm
-0.07
enger
-0.07
nghĩa
-0.06
curacy
-0.06
withstand
-0.06
integr
-0.06
Unicode
-0.06
=set
-0.06
yw
-0.06
POSITIVE LOGITS
Rate
0.07
=i
0.06
Per
0.06
!”↵↵
0.06
Poss
0.06
OnInit
0.06
가지
0.06
<|start_header_id|>
0.06
Mal
0.06
गढ
0.06
Activations Density 0.000%