INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    getConfig
    -0.07
     اج
    -0.06
    _-
    -0.06
     این
    -0.06
     گردید
    -0.06
     відмов
    -0.06
     вкус
    -0.06
    suggest
    -0.06
     ساختمان
    -0.06
     ignorance
    -0.06
    POSITIVE LOGITS
     Superman
    0.21
     Rihanna
    0.09
    rypton
    0.08
    irl
    0.07
    logan
    0.07
    imators
    0.07
    man
    0.06
    0.06
    Profiles
    0.06
            ↵        ↵        ↵
    0.06
    Act Density 0.003%

    No Known Activations