INDEX
Explanations
technical terms and multilingual phrasing
New Auto-Interp
Negative Logits
AVOA
0.44
professionalism
0.40
написал
0.39
जीर
0.38
policym
0.38
ctr
0.38
次方
0.38
ించింది
0.38
得到了
0.38
حاصل
0.38
POSITIVE LOGITS
estabele
0.39
شب
0.38
rí
0.36
込み
0.36
égard
0.36
Herald
0.36
temple
0.35
berlangsung
0.34
ભ
0.34
Esquire
0.34
Activations Density 0.000%