INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    פ
    0.39
    вих
    0.38
    されており
    0.37
    డు
    0.37
     والمت
    0.36
    CUSSION
    0.36
    ไว้
    0.36
    ണ്ഡി
    0.35
    🉑
    0.35
    0.35
    POSITIVE LOGITS
     if
    0.62
     если
    0.56
     якщо
    0.51
     اگه
    0.50
    如果在
    0.47
    如果有
    0.47
     pokud
    0.47
     dacă
    0.46
     Если
    0.46
     daca
    0.46
    Act Density 0.001%

    No Known Activations