INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     IF
    -0.08
     Faith
    -0.08
     faith
    -0.08
     :)
    -0.07
    ဲ့
    -0.07
     rt
    -0.07
    -0.07
    گذاری
    -0.07
    ь
    -0.07
    รับ
    -0.07
    POSITIVE LOGITS
     spac
    0.09
    apura
    0.08
    iul
    0.08
     ausschließlich
    0.08
     spacer
    0.08
     spoil
    0.08
     Kus
    0.07
    akw
    0.07
     exclusively
    0.07
    ilon
    0.07
    Act Density 0.002%

    No Known Activations