INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    -0.08
    ต่าง
    -0.07
     cercano
    -0.07
    anna
    -0.07
     голову
    -0.07
    orga
    -0.07
    -0.07
     pathway
    -0.07
     ase
    -0.07
    POSITIVE LOGITS
     pun
    0.08
    τε
    0.08
     toute
    0.08
     Pun
    0.07
    itre
    0.07
     Toute
    0.07
     حرف
    0.07
    onc
    0.07
    0.07
     Productions
    0.07
    Act Density 0.001%

    No Known Activations