INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ()
    -0.08
    කි
    -0.08
    -0.08
    (network
    -0.07
     chance
    -0.07
     detention
    -0.07
    hips
    -0.07
     mini
    -0.07
    -0.06
    _rules
    -0.06
    POSITIVE LOGITS
    -là
    0.10
     ficará
    0.08
    0.08
     বিষয়ে
    0.08
     regard
    0.08
    0.08
     بخ
    0.07
     جذ
    0.07
     tread
    0.07
     جي
    0.07
    Act Density 0.035%

    No Known Activations