INDEX
    Explanations

    math, numbers

    New Auto-Interp
    Negative Logits
    BLOCK
    -0.08
    stil
    -0.07
    ollo
    -0.07
     BIG
    -0.07
    ‌ర
    -0.07
     típ
    -0.07
     Oma
    -0.07
     stitch
    -0.07
     primit
    -0.07
     matk
    -0.07
    POSITIVE LOGITS
    本人
    0.10
     തന്നെ
    0.09
     그대로
    0.09
     original
    0.08
     obviously
    0.08
    iginal
    0.08
     തന്ന
    0.08
    ిందే
    0.08
     itself
    0.08
    original
    0.08
    Act Density 0.125%

    No Known Activations