INDEX
Negative Logits
esper
-0.09
tí
-0.08
-car
-0.07
性和
-0.07
े�
-0.07
inging
-0.07
Defense
-0.07
indication
-0.07
フィ
-0.07
иф
-0.07
POSITIVE LOGITS
Proto
0.07
overthrow
0.07
された
0.07
}))
0.07
Module
0.07
쌌
0.07
])))
0.07
Donovan
0.07
되었
0.06
بأن
0.06
Activations Density 0.003%