INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     odd
    -0.07
     Boy
    -0.07
     Int
    -0.07
     शुरुआ
    -0.07
     the
    -0.07
    Edges
    -0.07
     fold
    -0.07
     dough
    -0.07
    others
    -0.07
     acho
    -0.07
    POSITIVE LOGITS
     telefonisch
    0.09
     agendas
    0.09
    0.09
     repris
    0.08
    &apos
    0.08
    onne
    0.08
    ี่ยว
    0.08
     Supervisor
    0.08
     hierzu
    0.08
     aihe
    0.08
    Act Density 0.009%

    No Known Activations