INDEX
Explanations
describing actions or states
New Auto-Interp
Negative Logits
੦
0.25
når
0.25
όταν
0.25
após
0.24
setelah
0.24
организм
0.24
هَا
0.24
организма
0.23
inverses
0.23
після
0.23
POSITIVE LOGITS
up
0.30
some
0.30
"
0.29
svoju
0.28
一个小
0.28
”
0.28
G
0.27
ла
0.27
T
0.26
'
0.26
Activations Density 0.165%