INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     wcześ
    -0.08
    MatrixMode
    -0.08
     Merry
    -0.08
    تحمل
    -0.08
    _mini
    -0.08
    𐎹
    -0.07
    毒品
    -0.07
    \base
    -0.07
    Abs
    -0.07
    感觉自己
    -0.07
    POSITIVE LOGITS
    放假
    0.08
     inclined
    0.07
    却被
    0.07
     קצת
    0.07
    Filed
    0.06
    走了
    0.06
    מטר
    0.06
    0.06
    0.06
    0.06
    Act Density 0.003%

    No Known Activations