INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    841
    -0.08
     ng
    -0.08
    ngr
    -0.08
     eq
    -0.07
     conjunction
    -0.07
     padx
    -0.07
    kon
    -0.07
     parental
    -0.07
     mate
    -0.07
    irti
    -0.07
    POSITIVE LOGITS
    /Z
    0.09
    าร
    0.08
    يني
    0.08
    ाला
    0.08
    ಾರ
    0.08
    ாற
    0.08
    ிய
    0.07
    コミ
    0.07
    /window
    0.07
    ули
    0.07
    Act Density 0.001%

    No Known Activations