INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ALLOW
    -0.08
     transluc
    -0.08
    wide
    -0.07
    FY
    -0.07
     exert
    -0.07
     circumference
    -0.07
    مراء
    -0.07
    reserve
    -0.07
     уга
    -0.07
    .gamma
    -0.07
    POSITIVE LOGITS
     Nah
    0.09
    教程
    0.09
     jargon
    0.09
     진행
    0.08
     Tutorials
    0.08
    /tutorial
    0.08
     فيديو
    0.08
     Tir
    0.08
    ítés
    0.08
     صغير
    0.08
    Act Density 0.006%

    No Known Activations