INDEX
Negative Logits
_response
-0.07
commenter
-0.06
352
-0.06
Instruction
-0.06
_expression
-0.06
supplementary
-0.06
uja
-0.06
_radius
-0.06
four
-0.06
swapped
-0.06
POSITIVE LOGITS
ливість
0.07
ецт
0.07
lsru
0.07
キング
0.06
deş
0.06
ッグ
0.06
Мон
0.06
CHILD
0.06
issional
0.06
_TRI
0.06
Activations Density 0.002%