INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    a
    0.32
     
    0.32
    dalam
    0.27
    d
    0.27
    os
    0.24
    dans
    0.24
    v
    0.24
    was
    0.23
     আহমেদ
    0.23
    trong
    0.23
    POSITIVE LOGITS
    0.45
     be
    0.38
    0.33
    کی
    0.31
    5
    0.31
    0.30
    ۵
    0.30
    که
    0.30
    েল
    0.30
    ني
    0.29
    Act Density 0.000%

    No Known Activations