INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     což
    0.19
    0.19
     kanë
    0.18
     或者
    0.18
    )
    0.18
    หรือ
    0.18
     oppure
    0.18
     seien
    0.18
     hoặc
    0.17
    是一
    0.17
    POSITIVE LOGITS
     it
    0.23
    ,
    0.17
     everyone
    0.16
     you
    0.16
    oner
    0.16
    G
    0.16
     we
    0.15
    大家都
    0.15
     there
    0.15
    oth
    0.14
    Act Density 0.363%

    No Known Activations