INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    لة
    -0.09
    _ne
    -0.08
    、中
    -0.08
     grotere
    -0.08
     neighbours
    -0.08
    abat
    -0.07
    、小
    -0.07
     neighbour
    -0.07
     Mujer
    -0.07
    neighbors
    -0.07
    POSITIVE LOGITS
     haunt
    0.09
     khỏi
    0.08
     rou
    0.08
    κιν
    0.08
    щи
    0.08
     rout
    0.08
     tik
    0.07
     transporte
    0.07
    עלה
    0.07
     herunter
    0.07
    Act Density 0.014%

    No Known Activations