INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    它们的
    1.32
     इनकी
    1.05
     इनके
    0.97
    它們
    0.92
    พวก
    0.91
    她们
    0.88
     રહ્યું
    0.88
    டுகின்றன
    0.86
    它们
    0.85
     इनका
    0.85
    POSITIVE LOGITS
     he
    5.44
     він
    4.97
     그는
    4.84
     он
    4.72
    4.59
     তিনি
    4.41
    เขา
    4.31
     เขา
    4.25
    他在
    4.03
    他也
    3.98
    Act Density 0.278%

    No Known Activations