INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Simone
    -0.07
    qin
    -0.07
    694
    -0.07
    _PAR
    -0.07
    896
    -0.07
    dap
    -0.07
    898
    -0.07
    900
    -0.07
    _ENTITY
    -0.06
    342
    -0.06
    POSITIVE LOGITS
     boom
    0.08
     Fox
    0.08
     ceg
    0.08
     ega
    0.08
     ktor
    0.07
     gang
    0.07
     тел
    0.07
    0.07
     scre
    0.07
     نم
    0.07
    Act Density 0.002%

    No Known Activations