INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    $array
    -0.07
    -0.06
     ############
    -0.06
     deut
    -0.06
    .BLACK
    -0.06
     pouvoir
    -0.06
    egal
    -0.06
     πραγμα
    -0.06
    해야
    -0.06
            ↵    ↵
    -0.06
    POSITIVE LOGITS
     Irving
    0.15
     Marvin
    0.10
    ving
    0.10
    win
    0.09
    rvine
    0.08
     Irvine
    0.08
    WIN
    0.08
     Irma
    0.07
    VIN
    0.07
    vin
    0.07
    Act Density 0.003%

    No Known Activations