INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ك
    0.26
     artériel
    0.24
     in
    0.23
    いずれ
    0.23
     دیگر
    0.23
    ある
    0.23
     stvar
    0.23
    ها
    0.22
    0.22
     it
    0.22
    POSITIVE LOGITS
    5
    0.38
    4
    0.35
    7
    0.34
    6
    0.32
    8
    0.28
    9
    0.28
     T
    0.27
    อร์
    0.26
    нский
    0.25
    /
    0.25
    Act Density 1.789%

    No Known Activations