INDEX
    Explanations

    describing actions or states

    New Auto-Interp
    Negative Logits
    0.25
     når
    0.25
     όταν
    0.25
     após
    0.24
     setelah
    0.24
     организм
    0.24
    هَا
    0.24
     организма
    0.23
     inverses
    0.23
     після
    0.23
    POSITIVE LOGITS
     up
    0.30
     some
    0.30
    "
    0.29
     svoju
    0.28
    一个小
    0.28
    0.28
     G
    0.27
    ла
    0.27
     T
    0.26
     '
    0.26
    Act Density 0.165%

    No Known Activations