INDEX
Explanations
phrases related to governmental policies and regulations
New Auto-Interp
Negative Logits
geschichten
-0.17
weiber
-0.17
iname
-0.17
jeg
-0.16
impost
-0.16
kvin
-0.16
piger
-0.15
dane
-0.15
ragaz
-0.15
kontakte
-0.15
POSITIVE LOGITS
till
0.27
och
0.22
tv
0.21
exemp
0.21
prostituerade
0.20
iska
0.20
utf
0.20
ande
0.20
inte
0.20
efter
0.19
Activations Density 0.259%