INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    อาจ
    0.24
     მაგრამ
    0.24
    andır
    0.23
     ngunit
    0.23
    但我
    0.22
    🗺
    0.22
    ién
    0.22
    ต้อง
    0.22
    andin
    0.22
    rası
    0.21
    POSITIVE LOGITS
     the
    0.55
     a
    0.48
     that
    0.42
     isang
    0.42
     an
    0.41
     one
    0.41
     two
    0.39
     einer
    0.38
     eine
    0.38
     this
    0.37
    Act Density 1.181%

    No Known Activations