INDEX
Explanations
Russia, Ukraine, war, Soviet, Russian names
New Auto-Interp
Negative Logits
ist
1.66
związ
1.55
ется
1.53
ет
1.48
নি
1.46
izes
1.46
dotyczą
1.46
heet
1.43
achte
1.43
ltr
1.41
POSITIVE LOGITS
ب
1.64
Гра
1.63
Russia
1.60
روسی
1.55
Medvedev
1.54
Ukrainian
1.52
س
1.45
Russian
1.43
Ivan
1.42
Г
1.41
Activations Density 0.104%