INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
     ते
    -0.08
     वे
    -0.08
     नै
    -0.07
     pra
    -0.07
    beh
    -0.07
    owing
    -0.07
     kamb
    -0.07
     बाव
    -0.07
     Marino
    -0.07
    POSITIVE LOGITS
     tangible
    0.09
     eg
    0.09
     concr
    0.08
     concrete
    0.08
     Eg
    0.08
    uset
    0.08
     concreta
    0.08
    ніше
    0.08
     sober
    0.08
    iou
    0.08
    Act Density 0.008%

    No Known Activations