INDEX
Explanations
references to historical and cultural contexts related to film and national identity
New Auto-Interp
Negative Logits
/inet
-0.16
Sta
-0.15
uego
-0.15
aydı
-0.14
eon
-0.14
ousand
-0.14
antro
-0.14
seab
-0.14
缸
-0.14
ãĤ¤ãĥĪ
-0.13
POSITIVE LOGITS
de
0.21
een
0.19
nog
0.18
ook
0.18
niet
0.18
wel
0.18
ech
0.16
indirect
0.16
zich
0.16
wel
0.16
Activations Density 0.036%