INDEX
Explanations
compound concepts and places
New Auto-Interp
Negative Logits
လက်
0.62
<unused1071>
0.57
فقط
0.55
ները
0.54
მხოლოდ
0.54
DENUMIRE
0.52
толькі
0.52
ならば
0.52
ﺍﻟ
0.52
குவி
0.52
POSITIVE LOGITS
is
0.61
ق
0.57
0.51
isely
0.46
I
0.46
ствен
0.46
vog
0.45
a
0.45
er
0.45
ing
0.45
Activations Density 0.001%