INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     дет
    -0.08
     פרטים
    -0.07
    (simp
    -0.07
     😉↵↵
    -0.07
    👌
    -0.07
     анти
    -0.07
    还算
    -0.07
     useDispatch
    -0.07
    %"),↵
    -0.07
    -0.07
    POSITIVE LOGITS
    erver
    0.07
    ORM
    0.06
    OU
    0.06
    _IMETHOD
    0.06
    obsług
    0.06
     TimeZone
    0.06
    יבור
    0.06
    iVar
    0.06
     intercourse
    0.06
     חיים
    0.06
    Act Density 0.001%

    No Known Activations