INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -sponsored
    -0.09
     trata
    -0.08
     بالنسبة
    -0.08
     edific
    -0.08
    ədəni
    -0.08
     Gadget
    -0.08
     tubs
    -0.08
     pancake
    -0.08
     Kobe
    -0.07
    _eta
    -0.07
    POSITIVE LOGITS
    .pack
    0.08
     Laus
    0.07
    ині
    0.07
     erw
    0.07
     conformity
    0.07
     densely
    0.07
     delicate
    0.07
     Pak
    0.07
     khám
    0.07
     pack
    0.07
    Act Density 0.009%

    No Known Activations