INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    /colors
    -0.07
    .Ui
    -0.07
     adjective
    -0.07
     voor
    -0.07
     disputed
    -0.07
    /testify
    -0.07
     چیزی
    -0.07
    fab
    -0.06
     semble
    -0.06
    する
    -0.06
    POSITIVE LOGITS
     Amateur
    0.07
     "<<
    0.06
    amm
    0.06
    0.06
    ima
    0.06
    ================================
    0.06
     Mehmet
    0.06
    sembled
    0.06
    ,args
    0.06
    δέ
    0.06
    Act Density 0.009%

    No Known Activations