INDEX
Explanations
be/was/doing/looking + modifier
New Auto-Interp
Negative Logits
aiding
0.41
impactful
0.40
दिखी
0.40
lush
0.40
nutzt
0.40
needing
0.39
दिखता
0.38
볼게요
0.38
leveraging
0.37
surged
0.37
POSITIVE LOGITS
вполне
0.52
একেবারে
0.49
경우에는
0.47
件事情
0.46
实在是
0.46
совершенно
0.46
całkow
0.44
அவர்களுடைய
0.44
совсем
0.44
quelque
0.44
Activations Density 0.004%