INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Marco
    -0.07
     Sovere
    -0.07
     yani
    -0.07
     instru
    -0.07
    つまり
    -0.07
     fizer
    -0.07
     задерж
    -0.07
    -де
    -0.07
     Morph
    -0.07
    moor
    -0.07
    POSITIVE LOGITS
     जान
    0.08
    0.08
     στο
    0.08
    exports
    0.07
     الأمر
    0.07
    0.07
     thoughtfully
    0.07
    ortion
    0.07
     ਜਾਣ
    0.07
    ooks
    0.07
    Act Density 0.111%

    No Known Activations