INDEX
Explanations
references to individuals in positions of authority or related to governance
New Auto-Interp
Negative Logits
.
-0.65
-0.65
↵↵
-0.63
,
-0.60
1
-0.59
I
-0.56
The
-0.56
↵
-0.55
ft
-0.55
A
-0.54
POSITIVE LOGITS
indígen
0.95
increí
0.86
desmotivaciones
0.79
mijne
0.77
zijne
0.77
queſta
0.75
ambién
0.75
pérd
0.74
ientras
0.73
səhifə
0.73
Activations Density 0.592%