INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     যাওয়ার
    0.41
     sedangkan
    0.39
     natomiast
    0.38
    sthe
    0.37
    ществует
    0.36
    beyond
    0.36
    T
    0.36
    niejsze
    0.35
    istem
    0.35
     இந்நிலையில்
    0.34
    POSITIVE LOGITS
     sondern
    0.77
     but
    0.73
     बल्कि
    0.70
    而是
    0.63
     nhưng
    0.61
     αλλά
    0.53
     hanem
    0.53
     mutta
    0.52
     sino
    0.50
    แต่
    0.50
    Act Density 0.113%

    No Known Activations