INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    чат
    -0.07
     Actions
    -0.07
     مردم
    -0.07
    _THAT
    -0.07
     участ
    -0.07
    _mono
    -0.07
    чного
    -0.07
    ADATA
    -0.06
     halten
    -0.06
    Insn
    -0.06
    POSITIVE LOGITS
     nib
    0.08
    ib
    0.08
    建议
    0.07
    б
    0.06
    igh
    0.06
    endra
    0.06
     ill
    0.06
    ift
    0.06
     form
    0.06
    иб
    0.06
    Act Density 0.001%

    No Known Activations