INDEX
Explanations
specific labels followed by value
New Auto-Interp
Negative Logits
Clar
0.45
פי
0.40
penggunaan
0.40
prestigio
0.39
피
0.39
最后的
0.39
сно
0.38
Family
0.38
Shirt
0.38
стка
0.38
POSITIVE LOGITS
ஆயிரம்
0.46
poz
0.42
yl
0.42
atars
0.41
travaille
0.41
décou
0.41
accompanying
0.41
às
0.40
jeżeli
0.40
sous
0.40
Activations Density 0.003%