INDEX
Explanations
political or governmental terms
New Auto-Interp
Negative Logits
ﻷ
0.70
ィ
0.65
е
0.65
fica
0.64
Несмотря
0.63
возраст
0.62
пра
0.60
োহণ
0.60
вот
0.59
োগ্য
0.59
POSITIVE LOGITS
вання
0.68
impero
0.67
संविधान
0.61
partito
0.61
als
0.60
imiz
0.60
diction
0.60
力
0.59
ishly
0.59
دون
0.59
Activations Density 0.002%