INDEX
Explanations
religion politics culture social discourse
New Auto-Interp
Negative Logits
동일
0.44
①
0.44
फॉलो
0.44
rendezvous
0.41
twee
0.41
appings
0.40
gevolg
0.39
없
0.38
ফলো
0.38
ketiga
0.38
POSITIVE LOGITS
Religion
0.37
政治
0.36
```
0.35
宏
0.35
Ά
0.34
**
0.33
バス
0.33
Sosial
0.33
فرهنگ
0.33
宗教
0.32
Activations Density 0.225%