INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .mu
    -0.07
     spokeswoman
    -0.07
    *T
    -0.07
    claration
    -0.07
     ارزیابی
    -0.07
    *@
    -0.06
     fro
    -0.06
    τικό
    -0.06
     ""
    ↵
    -0.06
    ้าหน
    -0.06
    POSITIVE LOGITS
     Font
    0.06
    -long
    0.06
    Topic
    0.06
     naming
    0.06
    chef
    0.06
    .squeeze
    0.06
     spicy
    0.06
     WoW
    0.06
    .Security
    0.06
    .USER
    0.06
    Act Density 0.002%

    No Known Activations