INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     flavours
    -0.07
     س
    -0.07
    knowledge
    -0.07
     storage
    -0.07
    udson
    -0.07
    ٳ
    -0.07
     describing
    -0.07
     كلمة
    -0.06
    Xd
    -0.06
    .mix
    -0.06
    POSITIVE LOGITS
    容貌
    0.09
    باقي
    0.07
    rán
    0.07
     우리가
    0.07
     Peripheral
    0.07
    Preferred
    0.07
    第一天
    0.07
     {}\
    0.07
    EIF
    0.06
     Divide
    0.06
    Act Density 0.004%

    No Known Activations