INDEX
Explanations
if or si followed by a word
New Auto-Interp
Negative Logits
خواهند
0.35
oraz
0.32
当我们
0.31
zullen
0.29
.”
0.29
خواهد
0.28
devraient
0.28
nejen
0.28
wanneer
0.28
ہوگا۔
0.28
POSITIVE LOGITS
somehow
0.35
doubted
0.34
tienes
0.34
alguno
0.34
एखा
0.33
veya
0.33
algún
0.33
truly
0.33
alguna
0.33
excessively
0.32
Activations Density 0.552%