INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     gears
    -0.07
     petrol
    -0.07
     بهبود
    -0.07
     photons
    -0.07
    \Data
    -0.06
    hek
    -0.06
     συγκ
    -0.06
    буд
    -0.06
     Tillerson
    -0.06
     mutant
    -0.06
    POSITIVE LOGITS
    ’da
    0.07
    =N
    0.07
     Emmanuel
    0.06
    olph
    0.06
    _PL
    0.06
    确认
    0.06
     října
    0.06
     controversies
    0.06
    ản
    0.06
     jsme
    0.06
    Act Density 0.118%

    No Known Activations