INDEX
Negative Logits
Initialization
-0.07
フ�
-0.07
(surface
-0.07
_proj
-0.06
IDTH
-0.06
.pathname
-0.06
bahwa
-0.06
xcd
-0.06
<std
-0.06
painstaking
-0.06
POSITIVE LOGITS
ethic
0.07
房
0.07
توسعه
0.07
Originally
0.06
march
0.06
unsupported
0.06
erv
0.06
chia
0.06
colon
0.06
白
0.06
Activations Density 0.000%