INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     binge
    -0.09
    Retour
    -0.08
     Chauff
    -0.08
     homic
    -0.08
    ieron
    -0.08
     Christophe
    -0.07
    sonian
    -0.07
    Danny
    -0.07
    Profesor
    -0.07
     communist
    -0.07
    POSITIVE LOGITS
     Kern
    0.09
    untas
    0.08
    -t
    0.08
     Kernel
    0.08
     kir
    0.08
    -k
    0.08
     jo
    0.08
     MISS
    0.07
    しい
    0.07
     kirk
    0.07
    Act Density 0.009%

    No Known Activations