INDEX
Negative Logits
icle
0.37
";
0.35
åter
0.35
ishes
0.33
ook
0.33
'
0.33
devenu
0.33
Knows
0.33
pén
0.32
Exception
0.32
POSITIVE LOGITS
unchanged
0.48
continue
0.47
συνέχ
0.46
下去
0.44
traditions
0.44
쭉
0.44
unab
0.43
కొన
0.43
weiterhin
0.43
계속
0.42
Activations Density 0.014%