INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Oracle
    -0.08
    Know
    -0.08
    theta
    -0.07
    -là
    -0.07
     Oracle
    -0.07
    148
    -0.07
     ihn
    -0.07
    sgem
    -0.07
    Rabbit
    -0.07
    redux
    -0.07
    POSITIVE LOGITS
    0.08
     Wagner
    0.07
     pumpkin
    0.07
     гир
    0.07
     заранее
    0.07
    طوان
    0.07
    annik
    0.07
     peppers
    0.07
     Ehren
    0.07
    Mah
    0.07
    Act Density 0.001%

    No Known Activations