INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     rol
    -0.08
     reik
    -0.08
     ರೈ
    -0.08
     esport
    -0.07
     ranger
    -0.07
     against
    -0.07
     важ
    -0.07
     rubber
    -0.07
     sweat
    -0.07
     romantic
    -0.07
    POSITIVE LOGITS
    ضاع
    0.08
    -'.$
    0.08
    双色
    0.08
    xtures
    0.07
    ন্ন
    0.07
    ুই
    0.07
    Hv
    0.07
    )n
    0.07
    UGH
    0.07
    139
    0.07
    Act Density 0.057%

    No Known Activations