INDEX
Explanations
societal structures and impacts
New Auto-Interp
Negative Logits
einiger
0.31
coś
0.30
jakieś
0.29
dwóch
0.28
nettement
0.28
aise
0.27
ஸ்
0.27
eine
0.27
在中国
0.27
quels
0.27
POSITIVE LOGITS
society
0.81
整个
0.55
society
0.54
общества
0.52
academia
0.52
Christendom
0.52
المجتمع
0.51
Society
0.50
整個
0.47
общество
0.47
Activations Density 0.045%