INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     kulak
    -0.07
     прав
    -0.06
    meni
    -0.06
    -0.06
    pat
    -0.06
     loa
    -0.06
    σει
    -0.06
    -0.06
     Martin
    -0.06
    evi
    -0.06
    POSITIVE LOGITS
    的一个
    0.07
    Board
    0.07
     досяг
    0.06
     soubor
    0.06
    Javascript
    0.06
    енты
    0.06
     پیامبر
    0.06
    ,state
    0.06
    一般
    0.06
    ẳn
    0.06
    Act Density 0.032%

    No Known Activations