INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    batim
    -0.07
    otomy
    -0.07
    istles
    -0.07
    _FORMAT
    -0.07
     DSL
    -0.06
     Irr
    -0.06
    นอ
    -0.06
    _DELAY
    -0.06
    icaid
    -0.06
     Rays
    -0.06
    POSITIVE LOGITS
    3
    0.08
    	Main
    0.07
    áře
    0.07
     sudah
    0.06
     pře
    0.06
    κρι
    0.06
     flop
    0.06
     sociální
    0.06
     pořad
    0.06
     kullan
    0.06
    Act Density 0.041%

    No Known Activations