INDEX
    Explanations

    пример

    New Auto-Interp
    Negative Logits
     Bill
    -0.09
     Ka
    -0.08
     war
    -0.08
     nut
    -0.08
     Jenny
    -0.08
    .kill
    -0.08
     bill
    -0.08
     Chris
    -0.07
     Richmond
    -0.07
    ugno
    -0.07
    POSITIVE LOGITS
     موقع
    0.08
    0.08
     आए
    0.08
    0.08
    _pol
    0.07
    -av
    0.07
    Glow
    0.07
     یاد
    0.07
    cour
    0.07
    nak
    0.07
    Act Density 0.001%

    No Known Activations