INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    EST
    1.09
    h
    0.97
    ו
    0.95
    I
    0.95
    4
    0.90
    0.89
    ح
    0.88
    ۳
    0.86
    oo
    0.84
    的过程中
    0.84
    POSITIVE LOGITS
    t
    1.55
     взаимодействия
    1.25
     interact
    1.18
    т
    1.18
    я
    1.08
    то
    1.05
    ன்
    1.05
     взаимодействие
    1.03
     interacción
    1.02
     interactions
    1.00
    Act Density 0.033%

    No Known Activations