INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     curr
    -0.08
     Blick
    -0.08
    -first
    -0.08
     оч
    -0.07
    -0.07
    -0.07
    أستاذ
    -0.07
    -0.07
     Solver
    -0.07
     אמנם
    -0.07
    POSITIVE LOGITS
    tridge
    0.08
    [w
    0.08
    }s
    0.07
     impatient
    0.07
     knitting
    0.07
    gráf
    0.07
    小狗
    0.06
    בסיס
    0.06
     Sexe
    0.06
    (rx
    0.06
    Act Density 0.004%

    No Known Activations