INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     na
    0.62
    на
    0.61
     has
    0.58
     t
    0.57
     desde
    0.56
     temor
    0.56
     verdadero
    0.54
     cuando
    0.53
     viendo
    0.52
     Prado
    0.52
    POSITIVE LOGITS
    s
    0.58
    0.56
    ELLE
    0.56
    ی
    0.55
    ों
    0.54
    KeyPair
    0.52
    πτυ
    0.52
     idiosyncratic
    0.52
    dokter
    0.52
     پڑھیئے
    0.50
    Act Density 0.007%

    No Known Activations