INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Pride
    -0.06
     OP
    -0.06
    _stride
    -0.06
    kola
    -0.06
     Candy
    -0.06
     Ziel
    -0.06
    pei
    -0.06
    	TRACE
    -0.06
    _FOUND
    -0.06
     Pap
    -0.06
    POSITIVE LOGITS
    /tag
    0.07
     Specification
    0.07
    /views
    0.06
     harassment
    0.06
     weakening
    0.06
    IRM
    0.06
    431
    0.06
     meta
    0.06
    ını
    0.06
    なかった
    0.06
    Act Density 0.048%

    No Known Activations