INDEX
Explanations
terms related to fascism and its manifestations
New Auto-Interp
Negative Logits
een
-0.18
eper
-0.18
менно
-0.16
izedName
-0.16
eenth
-0.15
ei
-0.15
ease
-0.15
ees
-0.15
oten
-0.15
arks
-0.15
POSITIVE LOGITS
fasc
0.28
inating
0.27
Fasc
0.23
ination
0.20
inate
0.18
inated
0.17
ilit
0.16
OSC
0.16
fac
0.16
isc
0.16
Activations Density 0.006%