INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    looks
    -0.08
    とき
    -0.07
    yen
    -0.07
    وند
    -0.07
     impecc
    -0.06
    پس
    -0.06
     battery
    -0.06
     scooter
    -0.06
     Depos
    -0.06
    'em
    -0.06
    POSITIVE LOGITS
    είου
    0.07
    .IN
    0.07
     INSERT
    0.07
    IND
    0.06
    iciar
    0.06
     OFFSET
    0.06
    HOW
    0.06
    [Double
    0.06
    UTION
    0.06
    .lin
    0.06
    Act Density 0.005%

    No Known Activations