INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     വൈസ്
    -0.10
    เภท
    -0.09
     jenis
    -0.09
     болезнь
    -0.09
     ასე
    -0.09
    ิร์
    -0.09
     ആത
    -0.09
     ʻano
    -0.09
     હોસ્પ
    -0.08
     გადაწ
    -0.08
    POSITIVE LOGITS
     viel
    0.08
    ngr
    0.08
     beachten
    0.07
     Vad
    0.07
     lul
    0.07
     több
    0.07
    Tube
    0.07
     mainly
    0.07
    0.07
     ir
    0.07
    Act Density 0.046%

    No Known Activations