INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Ann
    -0.08
     Legislative
    -0.08
     αντί
    -0.07
     Lone
    -0.07
    ப்
    -0.07
     duy
    -0.07
    -0.07
    -0.07
     Francia
    -0.07
     caras
    -0.07
    POSITIVE LOGITS
     millet
    0.08
    atomic
    0.07
     torr
    0.07
     Cook
    0.07
    specified
    0.07
    0.07
     люб
    0.07
    0.07
    ने
    0.06
    Tor
    0.06
    Act Density 0.015%

    No Known Activations