INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ισμός
    -0.06
     dynamics
    -0.06
     internals
    -0.06
     stoi
    -0.06
    اتف
    -0.06
     crystal
    -0.06
     kỳ
    -0.06
     photons
    -0.06
     postpone
    -0.05
    etty
    -0.05
    POSITIVE LOGITS
     Bakan
    0.07
    打开
    0.07
     duż
    0.07
    [[
    0.07
    _WARN
    0.06
     lakh
    0.06
    $page
    0.06
    0.06
    PLEX
    0.06
    .total
    0.06
    Act Density 0.010%

    No Known Activations