INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Lage
    -0.08
     salari
    -0.07
    -0.07
    Sky
    -0.07
     Sky
    -0.07
     Lac
    -0.07
    사항
    -0.07
    -0.07
    -0.07
     לכן
    -0.07
    POSITIVE LOGITS
    chap
    0.08
     CB
    0.07
     distrib
    0.07
     angem
    0.07
     dah
    0.07
    rig
    0.07
     acom
    0.07
     thief
    0.07
     diaries
    0.07
     emp
    0.07
    Act Density 0.040%

    No Known Activations