INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Perl
    -0.07
     CHECK
    -0.07
     écrit
    -0.07
     Something
    -0.07
     disturbances
    -0.07
    彼女
    -0.07
    ılmaz
    -0.07
    arm
    -0.07
    BASH
    -0.07
    Wall
    -0.07
    POSITIVE LOGITS
     adoption
    0.15
     Adoption
    0.14
     adopt
    0.14
     adopted
    0.13
     adopting
    0.13
     adopts
    0.12
     Adopt
    0.12
    adopt
    0.11
    .ad
    0.08
    abort
    0.07
    Act Density 0.006%

    No Known Activations