INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     recher
    -0.07
    -0.07
     homophobic
    -0.07
    ρίς
    -0.06
     شکن
    -0.06
    áky
    -0.06
    ieten
    -0.06
    .enums
    -0.06
    足球
    -0.06
    pository
    -0.06
    POSITIVE LOGITS
     just
    0.18
     Just
    0.15
    Just
    0.14
     JUST
    0.13
    just
    0.12
    "Just
    0.10
     jus
    0.09
     jos
    0.08
     juste
    0.08
    JUST
    0.08
    Act Density 0.063%

    No Known Activations