INDEX
Explanations
preposition followed by noun/gerund
New Auto-Interp
Negative Logits
oczywiście
0.43
嚐
0.38
⸜
0.38
ото
0.36
দোষ
0.35
केसांना
0.35
destination
0.35
それぞれの
0.35
ையாள
0.35
','$
0.35
POSITIVE LOGITS
it
0.53
它
0.45
a
0.40
一个小
0.39
epistemology
0.39
también
0.38
dodat
0.37
almeno
0.37
’
0.37
sogar
0.37
Activations Density 0.081%