INDEX
Negative Logits
/admin
-0.08
良
-0.07
aggregate
-0.07
invalid
-0.07
があった
-0.06
害
-0.06
诽
-0.06
怛
-0.06
form
-0.06
他人
-0.06
POSITIVE LOGITS
�
0.08
armored
0.07
sorte
0.07
Debt
0.07
ורק
0.07
merciless
0.07
_doc
0.07
surged
0.07
Lore
0.07
🔀
0.07
Activations Density 0.178%