INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Citizens
    -0.08
     дистан
    -0.08
     Велик
    -0.08
     Akan
    -0.08
    作为
    -0.08
     другого
    -0.08
    akom
    -0.07
     లేద
    -0.07
     अशी
    -0.07
    -0.07
    POSITIVE LOGITS
    0.08
    rifice
    0.07
    ΡΙ
    0.07
     👍
    0.07
     Laura
    0.07
    Red
    0.07
     plaf
    0.07
    860
    0.07
     redness
    0.07
    ############
    0.07
    Act Density 0.003%

    No Known Activations