INDEX
Negative Logits
dioxide
-0.08
issions
-0.08
index
-0.07
פח
-0.07
(y
-0.07
_comm
-0.07
分区
-0.07
𐭉
-0.07
�
-0.07
initiation
-0.06
POSITIVE LOGITS
based
0.10
-based
0.08
the
0.07
datasets
0.07
Avatar
0.07
rote
0.07
�
0.06
Ram
0.06
มา
0.06
才行
0.06
Activations Density 0.068%