INDEX
Negative Logits
sowie
-0.09
to
-0.07
announces
-0.07
();++
-0.07
tack
-0.06
tür
-0.06
Metro
-0.06
{})↵-0.06
,self
-0.06
tell
-0.06
POSITIVE LOGITS
娣
0.07
_LOW
0.07
censorship
0.07
Scientists
0.07
院士
0.07
戗
0.07
'?'
0.06
Credential
0.06
/core
0.06
格會
0.06
Activations Density 0.042%