INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    /kernel
    -0.08
     RHS
    -0.08
     altar
    -0.08
    izzo
    -0.08
     фото
    -0.07
    -0.07
     Tune
    -0.07
    ימת
    -0.07
    图片来源
    -0.07
    번째
    -0.07
    POSITIVE LOGITS
     Casual
    0.07
     casual
    0.07
     comfortable
    0.07
    wallet
    0.07
     ulcer
    0.07
    0.07
    hasOne
    0.07
    0.07
    Girls
    0.07
    0.07
    Act Density 0.006%

    No Known Activations