INDEX
Explanations
phrases emphasizing exclusivity or limitation
only, just, exclusive
New Auto-Interp
Negative Logits
hatta
-0.39
impresa
-0.36
poussière
-0.33
suprême
-0.33
ennemi
-0.33
chegada
-0.32
épaules
-0.32
кре
-0.32
meneg
-0.30
genoux
-0.30
POSITIVE LOGITS
だけ
2.14
だけ
1.58
만
1.49
だけの
1.42
のみ
1.36
saja
1.32
だけで
1.27
だけが
1.15
だけです
1.10
だけは
1.07
Activations Density 0.007%