INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     err
    -0.08
     abstra
    -0.08
     abstraction
    -0.07
     agress
    -0.07
     Driving
    -0.07
     hobby
    -0.07
     auto
    -0.07
     hence
    -0.07
     rigor
    -0.07
     listening
    -0.07
    POSITIVE LOGITS
     جاءت
    0.09
    ően
    0.09
     secours
    0.09
     therapies
    0.08
     Alfonso
    0.08
    ély
    0.08
    varez
    0.08
     Umständen
    0.08
     européens
    0.08
     europeos
    0.08
    Act Density 0.003%

    No Known Activations