INDEX
Explanations
foreign, finance, sports, rankings
New Auto-Interp
Negative Logits
Ge
0.52
↵↵
0.52
Quan
0.52
\
0.52
Em
0.50
>
0.50
cie
0.50
-
0.48
Sw
0.48
Gris
0.47
POSITIVE LOGITS
𝚜
0.54
𝓈
0.50
Фургала
0.47
സമൂഹ
0.47
постоянно
0.46
втор
0.46
упро
0.46
पुरंदरे
0.45
сфор
0.45
Фургал
0.44
Activations Density 0.002%