INDEX
Explanations
terms related to financial fraud and deception
New Auto-Interp
Negative Logits
geschichten
-0.19
weiber
-0.19
Erotische
-0.17
vivastreet
-0.16
swingerclub
-0.16
Äįlov
-0.16
pornofil
-0.15
zdrav
-0.15
ÑĮе
-0.15
riday
-0.15
POSITIVE LOGITS
och
0.39
till
0.32
eller
0.29
som
0.28
för
0.28
med
0.27
på
0.25
från
0.25
även
0.24
är
0.24
Activations Density 0.310%