INDEX
    Explanations

    prepositions

    New Auto-Interp
    Negative Logits
    including
    -0.08
    398
    -0.08
    lor
    -0.08
    376
    -0.07
     היו
    -0.07
    Liber
    -0.07
     poj
    -0.07
     Jok
    -0.07
    ಿವೆ
    -0.07
    Pel
    -0.07
    POSITIVE LOGITS
     придум
    0.11
    -нибудь
    0.10
     algún
    0.10
    ડી
    0.09
     alguna
    0.09
     одному
    0.09
     אחד
    0.09
     alguno
    0.09
     preferably
    0.09
    ,比如
    0.09
    Act Density 0.136%

    No Known Activations