INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     sebelah
    1.05
    en
    0.98
    த்
    0.87
    ாமல்
    0.86
     نفر
    0.82
    ोत्तर
    0.79
    strictly
    0.78
     शुभकामनाएं
    0.78
    何を
    0.78
     Rxe
    0.78
    POSITIVE LOGITS
    一来
    1.21
     as
    1.16
    ंबई
    1.12
     например
    1.12
    𝙇
    1.11
    ेडकर
    1.09
     вот
    1.07
    𝙏
    1.06
    izophren
    1.06
    ôtels
    1.05
    Act Density 0.026%

    No Known Activations