INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    שמחה
    -0.07
     special
    -0.07
     impeccable
    -0.07
    一辆
    -0.07
     delightful
    -0.07
    室内
    -0.07
    овар
    -0.07
     metallic
    -0.07
     seizure
    -0.07
     atroc
    -0.06
    POSITIVE LOGITS
    "]);
    ↵
    0.06
    0.06
    :convert
    0.06
     derby
    0.06
    .MODE
    0.06
    \Models
    0.06
    kee
    0.06
    都不
    0.06
     ""),↵
    0.06
    ?”
    0.06
    Act Density 0.014%

    No Known Activations