INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bazı
    -0.08
     additive
    -0.07
     ткани
    -0.07
     kvinne
    -0.07
    liğe
    -0.07
     voiture
    -0.07
    iteleri
    -0.07
     hairy
    -0.07
    فاده
    -0.07
    θούν
    -0.06
    POSITIVE LOGITS
    485
    0.06
    TH
    0.06
    265
    0.06
     tud
    0.06
    385
    0.06
    885
    0.06
     sustain
    0.06
    كات
    0.06
    0.06
    فصل
    0.06
    Act Density 0.036%

    No Known Activations