INDEX
Negative Logits
ように
1.88
们
1.63
ようになりました
1.49
{1.48
いた
1.44
sebagainya
1.41
🔥🔥
1.41
よう
1.40
قبل
1.39
决心
1.39
POSITIVE LOGITS
ا
2.56
ן
2.45
র
2.31
l
2.20
u
2.16
ு
2.05
n
2.03
ن
2.02
י
1.96
m
1.95
Activations Density 0.010%
ように
们
ようになりました
{いた
sebagainya
🔥🔥
よう
قبل
决心
ا
ן
র
l
u
ு
n
ن
י
m