INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Rol
    -0.07
    ­های
    -0.07
     faker
    -0.06
     felony
    -0.06
    “Yes
    -0.06
     ​​
    -0.06
    _movie
    -0.06
     :-↵
    -0.06
    ,col
    -0.06
    もの
    -0.06
    POSITIVE LOGITS
     Verify
    0.09
    arranty
    0.07
    .VisualStudio
    0.07
     Thank
    0.07
     intrigued
    0.06
     Interest
    0.06
     Wonder
    0.06
     همکاری
    0.06
    лек
    0.06
     Scri
    0.06
    Act Density 0.002%

    No Known Activations