INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    nl
    -0.08
     hardest
    -0.08
    mux
    -0.08
     brutality
    -0.08
     gefragt
    -0.07
     بحاجة
    -0.07
     brib
    -0.07
    lah
    -0.07
     gestalten
    -0.07
     inuu
    -0.07
    POSITIVE LOGITS
    blatt
    0.09
    关于
    0.09
    Works
    0.08
     regards
    0.07
    бот
    0.07
    metr
    0.07
    _about
    0.07
    about
    0.07
    .date
    0.07
    علق
    0.07
    Act Density 0.005%

    No Known Activations