INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    F
    0.70
    ph
    0.62
    }{
    0.61
    _
    0.61
    s
    0.59
     رم
    0.58
     със
    0.58
     f
    0.57
    avec
    0.57
    ς
    0.57
    POSITIVE LOGITS
    人们
    0.80
     oamen
    0.79
     każdym
    0.77
     insanların
    0.77
    每个人
    0.75
    每一个
    0.75
    рган
    0.74
     setiap
    0.73
    ঘর
    0.73
    每一
    0.72
    Act Density 0.179%

    No Known Activations