INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ep
    -0.08
     Lug
    -0.08
     revel
    -0.08
    ?n
    -0.08
     dll
    -0.07
    piegel
    -0.07
    leur
    -0.07
     kai
    -0.07
     свою
    -0.07
     gow
    -0.07
    POSITIVE LOGITS
    -value
    0.09
    0.08
    -function
    0.08
    -ин
    0.08
    verständ
    0.08
    0.08
    0.08
     ന്
    0.08
    -mode
    0.08
    0.08
    Act Density 0.079%

    No Known Activations