INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     seinem
    -0.08
     svo
    -0.07
     طفل
    -0.07
     הערב
    -0.07
    _atom
    -0.07
    🖊
    -0.07
    房车
    -0.07
     nouvelles
    -0.07
    -0.07
    棋牌游戏
    -0.07
    POSITIVE LOGITS
    =Y
    0.08
    ик
    0.08
     minut
    0.07
     Honey
    0.07
    𝑖
    0.07
     Common
    0.07
    /th
    0.07
     pigeon
    0.07
    公寓
    0.07
    0.07
    Act Density 0.002%

    No Known Activations