INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     kingdoms
    -0.07
    political
    -0.07
     psychotic
    -0.07
    ote
    -0.07
    	my
    -0.07
     Gunn
    -0.06
     NORMAL
    -0.06
     أي
    -0.06
    >)
    -0.06
     повіт
    -0.06
    POSITIVE LOGITS
     %=
    0.07
    emble
    0.06
    eler
    0.06
     untrue
    0.06
    .mixin
    0.06
    ева
    0.06
    保障
    0.06
     <<-
    0.06
    zeich
    0.06
     تصویر
    0.06
    Act Density 0.015%

    No Known Activations