INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -
    0.93
    ä
    0.87
    vär
    0.86
     of
    0.84
     in
    0.79
    した
    0.79
    使
    0.71
    0.70
    可以
    0.70
     (
    0.68
    POSITIVE LOGITS
    ی
    1.06
     urgente
    1.04
    4
    1.00
    9
    0.92
    Ф
    0.91
    ק
    0.89
    6
    0.88
    8
    0.88
    مین
    0.87
    И
    0.87
    Act Density 0.006%

    No Known Activations