INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     violent
    -0.08
     conflict
    -0.07
     breathtaking
    -0.07
     yp
    -0.06
     tako
    -0.06
    -0.06
    sound
    -0.06
     marginalized
    -0.06
     mins
    -0.06
     větší
    -0.06
    POSITIVE LOGITS
    Türk
    0.07
     corn
    0.07
    ливо
    0.07
    sn
    0.07
    0.06
    brakk
    0.06
    onn
    0.06
    vb
    0.06
     přísluš
    0.06
    	↵		↵
    0.06
    Act Density 0.006%

    No Known Activations