INDEX
Explanations
foreign language characters
New Auto-Interp
Negative Logits
a
0.40
It
0.38
Information
0.34
I
0.33
A
0.33
And
0.32
If
0.32
lty
0.30
lng
0.30
worthiness
0.29
POSITIVE LOGITS
in
0.50
は
0.47
在
0.45
eiusmod
0.42
في
0.41
ન
0.38
σε
0.38
ও
0.38
۔
0.38
ق
0.38
Activations Density 0.431%