INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     fred
    -0.06
    نام
    -0.06
                                      
    -0.06
     кисл
    -0.06
    -0.06
     requester
    -0.06
    我们的
    -0.06
    sentence
    -0.06
    eyed
    -0.06
     필요한
    -0.06
    POSITIVE LOGITS
     hann
    0.07
    _che
    0.06
    0.06
    moz
    0.06
    .gl
    0.06
     indx
    0.06
    .CreateTable
    0.06
    ota
    0.06
    _trial
    0.06
     отри
    0.06
    Act Density 0.019%

    No Known Activations