INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     WIB
    -0.08
    -0.07
    იტ
    -0.07
    672
    -0.07
     Kindergarten
    -0.07
     Hana
    -0.07
    uitar
    -0.07
    EY
    -0.07
    isbn
    -0.07
     Ballet
    -0.07
    POSITIVE LOGITS
    κά
    0.07
     pinpoint
    0.07
    лі
    0.07
     bitter
    0.07
     arranc
    0.07
     creepy
    0.07
     odpor
    0.07
    ivic
    0.07
     scenic
    0.07
     النهاية
    0.07
    Act Density 0.001%

    No Known Activations