INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ,因此
    -0.09
    赌博
    -0.08
    。因此
    -0.08
    ,而
    -0.08
     ਗਿਆ
    -0.08
     فرم
    -0.08
     поряд
    -0.08
     demais
    -0.08
    战争
    -0.08
    شياء
    -0.08
    POSITIVE LOGITS
     haute
    0.08
     Optim
    0.08
     Os
    0.07
     deber
    0.07
    Os
    0.07
     eisen
    0.07
    IM
    0.07
    Cir
    0.07
    Optim
    0.07
     approved
    0.07
    Act Density 0.067%

    No Known Activations