INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     имму
    -0.07
     reefs
    -0.07
     فارس
    -0.07
     plateau
    -0.06
     прой
    -0.06
    Input
    -0.06
     نامه
    -0.06
    .cons
    -0.06
     بعد
    -0.06
    (drop
    -0.06
    POSITIVE LOGITS
    0.07
     halinde
    0.07
    .").
    0.06
    rtle
    0.06
    ."'
    0.06
    •↵↵
    0.06
     ipc
    0.06
    acious
    0.06
     cpt
    0.06
     Vill
    0.06
    Act Density 0.005%

    No Known Activations