INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     decirlo
    0.31
     only
    0.31
     aptly
    0.30
     chwili
    0.30
     sadece
    0.30
     그냥
    0.29
     pogled
    0.29
     bunu
    0.29
     ܐ
    0.29
     souvent
    0.29
    POSITIVE LOGITS
    有哪些
    0.41
    哪些
    0.37
     какие
    0.33
     কীভাবে
    0.31
     каких
    0.29
     наиболее
    0.29
    Какие
    0.29
     Какие
    0.28
    どのような
    0.28
     конкре
    0.27
    Act Density 0.758%

    No Known Activations