INDEX
Negative Logits
א
0.81
an
0.75
ス
0.73
の
0.71
の新
0.68
ing
0.67
’;
0.66
ס
0.66
ા
0.64
ä
0.61
POSITIVE LOGITS
(
0.65
t
0.63
x
0.59
surge
0.56
com
0.55
kke
0.54
ncol
0.54
kali
0.53
politik
0.52
cas
0.51
Activations Density 0.008%
א
an
ス
の
の新
ing
’;
ס
ા
ä
(
t
x
surge
com
kke
ncol
kali
politik
cas