INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ('/')↵
    -0.07
     Bo
    -0.07
    <k
    -0.07
     Św
    -0.07
    .'<
    -0.07
     Hoe
    -0.07
     Bou
    -0.06
    /tasks
    -0.06
    -0.06
    -0.06
    POSITIVE LOGITS
     שכל
    0.07
    cía
    0.07
     =$
    0.07
    lijah
    0.07
     python
    0.07
    خطوط
    0.06
    中国足球
    0.06
     vehement
    0.06
    领军
    0.06
    Μ
    0.06
    Act Density 0.001%

    No Known Activations