INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ان
    1.43
    larından
    1.34
    larının
    1.25
    సూరు
    1.25
     człowieka
    1.17
    िक
    1.16
    नरी
    1.15
     Davos
    1.15
    lardan
    1.13
    ួក
    1.09
    POSITIVE LOGITS
    1.14
    1.10
    1.09
    ۶
    1.07
    있는
    1.04
    ۷
    1.04
    沒有
    0.99
    ۱
    0.99
     informazioni
    0.99
    没有
    0.96
    Act Density 0.258%

    No Known Activations