INDEX
Explanations
multi-lingual specific words
New Auto-Interp
Negative Logits
s
1.34
ات
1.33
n
1.31
it
1.26
ع
1.24
um
1.21
v
1.21
k
1.16
te
1.11
č
1.10
POSITIVE LOGITS
ಿಣ
1.19
เรา
1.16
하여
1.15
이지만
1.10
จะ
1.04
েইলি
1.04
我们
1.03
疠
1.02
ﻥ
1.02
可以
1.01
Activations Density 0.919%