INDEX
Explanations
listing numbers after phrases
New Auto-Interp
Negative Logits
АН
0.41
्यूड
0.35
рованием
0.35
baseman
0.34
слан
0.34
าส
0.33
𝖑
0.33
grievance
0.33
літ
0.33
ванием
0.33
POSITIVE LOGITS
તથા
0.45
etc
0.42
등이
0.40
甚至是
0.38
etcétera
0.38
futhi
0.38
등으로
0.37
그다음에
0.37
वगैरह
0.36
इत्यादी
0.36
Activations Density 0.182%