INDEX
    Explanations

    small amount

    New Auto-Interp
    Negative Logits
    Culture
    -0.08
    iend
    -0.08
    ielten
    -0.07
    stype
    -0.07
    irms
    -0.07
     отчет
    -0.07
     ځکه
    -0.07
    Kwam
    -0.07
    ஆம்
    -0.07
    :boolean
    -0.07
    POSITIVE LOGITS
    0.08
    šta
    0.07
     Needed
    0.07
     FLEX
    0.07
     wollen
    0.07
     med
    0.07
    621
    0.07
     deductions
    0.07
     dialogue
    0.07
    ujących
    0.07
    Act Density 0.002%

    No Known Activations