INDEX
    Explanations

    instruction

    New Auto-Interp
    Negative Logits
     ellen
    -0.07
     remis
    -0.07
     analiz
    -0.07
    577
    -0.07
     sez
    -0.07
     eset
    -0.07
    -0.07
     Bauern
    -0.07
    amang
    -0.07
     gleicher
    -0.07
    POSITIVE LOGITS
    وله
    0.09
     طف
    0.09
    وې
    0.09
    Leon
    0.08
    违反
    0.08
    ову
    0.08
    laid
    0.08
    ņas
    0.08
    纪律
    0.08
    YD
    0.08
    Act Density 0.011%

    No Known Activations