INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     revolt
    -0.08
     colonia
    -0.08
     thrill
    -0.08
     Tito
    -0.08
     Greg
    -0.08
    čina
    -0.08
     faptul
    -0.08
     Keen
    -0.08
     läuft
    -0.08
    қ
    -0.08
    POSITIVE LOGITS
     padding
    0.15
    Padding
    0.15
     Padding
    0.13
     filler
    0.13
    padding
    0.13
    -padding
    0.13
     padded
    0.12
    .padding
    0.12
    .pad
    0.11
    	padding
    0.11
    Act Density 0.007%

    No Known Activations