INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Bart
    -0.08
     "?
    -0.08
     hopes
    -0.08
     zal
    -0.07
     speculation
    -0.07
     bur
    -0.07
    ardi
    -0.07
     suspicion
    -0.07
     namely
    -0.07
     myocard
    -0.07
    POSITIVE LOGITS
    一下
    0.10
     כיצד
    0.09
    如何
    0.08
    0.08
     darüber
    0.08
     cómo
    0.08
    Cómo
    0.08
    Imp
    0.08
     sidii
    0.08
     Konsequ
    0.08
    Act Density 0.031%

    No Known Activations