INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ב
    0.71
    ر
    0.58
    ت
    0.57
    p
    0.57
    to
    0.54
    رود
    0.54
    t
    0.53
    i
    0.53
    tat
    0.53
    torch
    0.52
    POSITIVE LOGITS
    ငန်း
    0.67
    omsday
    0.59
     στον
    0.57
     многое
    0.57
    ppel
    0.54
     indeed
    0.52
    0.52
     grunds
    0.52
     vær
    0.52
     gewoon
    0.51
    Act Density 0.230%

    No Known Activations