INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    fas
    -0.09
    anken
    -0.08
     собой
    -0.08
     המצ
    -0.08
     ALG
    -0.08
     עצמ
    -0.08
    Ds
    -0.08
    uken
    -0.08
     שונים
    -0.08
     эффектив
    -0.08
    POSITIVE LOGITS
    0.08
     banque
    0.07
     fugir
    0.07
    erton
    0.07
     Zij
    0.07
    Rede
    0.07
    0.07
     brood
    0.07
    (cid
    0.07
    0.06
    Act Density 0.012%

    No Known Activations