INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    porte
    -0.07
     Dry
    -0.07
    ASHBOARD
    -0.07
     selber
    -0.07
     imper
    -0.06
    imated
    -0.06
    spe
    -0.06
    armor
    -0.06
    ite
    -0.06
     AFF
    -0.06
    POSITIVE LOGITS
     بده
    0.06
    ).
    ↵
    0.06
     voor
    0.06
    "),↵↵
    0.06
     Kin
    0.06
    ↵↵↵↵↵↵↵↵↵↵↵↵↵↵
    0.06
    очного
    0.06
     journée
    0.06
     redefine
    0.06
    ψη
    0.05
    Act Density 0.003%

    No Known Activations