INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    {
    0.46
     كان
    0.45
     zorg
    0.45
     (
    0.42
     сооб
    0.42
     لي
    0.40
     ك
    0.39
     Cloth
    0.39
     doet
    0.39
     zegt
    0.39
    POSITIVE LOGITS
    จัก
    0.51
    alous
    0.48
    อาด
    0.47
    kurs
    0.47
    ことが多い
    0.47
    0.45
    hund
    0.45
    vais
    0.45
    วัส
    0.45
    0.44
    Act Density 0.036%

    No Known Activations