INDEX
Explanations
code, configurations, or comments
New Auto-Interp
Negative Logits
นั่ง
1.30
น
1.28
นี่
1.27
น่า
1.10
น้อง
1.10
ς
1.09
ؘ
1.05
тна
1.02
taker
1.02
ተመሳሳይ
1.02
POSITIVE LOGITS
מ
1.38
에
1.34
ח
1.09
}\
1.05
に
1.02
ב
1.02
ע
1.01
社会主义
1.00
I
1.00
ennial
0.99
Activations Density 0.001%