INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Folk
    -0.07
    -0.07
     jong
    -0.07
    beth
    -0.07
     ATP
    -0.07
    Invariant
    -0.07
    -sk
    -0.06
    -0.06
    -0.06
    بار
    -0.06
    POSITIVE LOGITS
     Capt
    0.07
     DAMAGE
    0.07
     repositories
    0.07
    Texas
    0.07
    整顿
    0.07
     الدولية
    0.07
    考虑到
    0.07
     Narr
    0.07
    0.07
    @@@@
    0.07
    Act Density 0.001%

    No Known Activations