INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     FIN
    -0.08
    adapt
    -0.06
    ross
    -0.06
     Yale
    -0.06
     soit
    -0.05
     bears
    -0.05
    (drop
    -0.05
     Pole
    -0.05
    short
    -0.05
    endants
    -0.05
    POSITIVE LOGITS
     karak
    0.08
     kindness
    0.07
     खबर
    0.07
    OUR
    0.07
    >{@
    0.06
    HM
    0.06
     натураль
    0.06
     чим
    0.06
     обра
    0.06
    Americ
    0.06
    Act Density 0.024%

    No Known Activations