INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Fat
    -0.07
    óng
    -0.07
     brun
    -0.07
     грудня
    -0.07
    áty
    -0.06
    ToDelete
    -0.06
     Rune
    -0.06
     dak
    -0.06
    <Edge
    -0.06
     konkrét
    -0.06
    POSITIVE LOGITS
     cowork
    0.07
    قام
    0.06
    REA
    0.06
     scrap
    0.06
    udging
    0.06
     diseño
    0.06
    ustry
    0.06
    жно
    0.06
     воздейств
    0.06
    276
    0.06
    Act Density 0.012%

    No Known Activations