INDEX
Explanations
punctuations and sentence endings
New Auto-Interp
Negative Logits
novas
0.50
neue
0.48
neuen
0.47
prots
0.47
idé
0.47
refugee
0.46
dienst
0.46
exs
0.46
Vedas
0.46
vaste
0.45
POSITIVE LOGITS
由于
0.48
afficher
0.47
因为
0.46
药
0.43
Jx
0.43
我不
0.42
ngọt
0.42
因为
0.41
㎏
0.41
删除
0.41
Activations Density 0.014%