INDEX
Explanations
references to trampling or violations of rights and principles
New Auto-Interp
Negative Logits
i
-0.26
ains
-0.21
p
-0.21
z
-0.17
inerary
-0.17
opak
-0.17
m
-0.17
withstanding
-0.16
htags
-0.15
o
-0.15
POSITIVE LOGITS
ez
0.23
een
0.21
ea
0.20
eer
0.19
yt
0.18
eo
0.18
ei
0.18
aire
0.17
eur
0.17
ee
0.16
Activations Density 0.217%