INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    想像
    -0.08
     forging
    -0.07
    赌博
    -0.07
     вывод
    -0.07
    imming
    -0.06
    果断
    -0.06
    学堂
    -0.06
     ward
    -0.06
    沃尔沃
    -0.06
    '])
    ↵
    -0.06
    POSITIVE LOGITS
    زا
    0.09
    си
    0.07
    .Copy
    0.07
    0.07
    ナー
    0.07
     Specialty
    0.07
    recur
    0.07
    נצ
    0.07
    0.07
     García
    0.06
    Act Density 0.009%

    No Known Activations