INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    努力
    -0.07
    (av
    -0.07
    });↵↵↵↵
    -0.07
    -0.07
     Lud
    -0.07
     Fu
    -0.07
    -0.07
    ман
    -0.06
    jn
    -0.06
     Вот
    -0.06
    POSITIVE LOGITS
    صغر
    0.08
    ollapsed
    0.08
    .Focused
    0.07
    0.07
    פייסב
    0.07
    分开
    0.07
    外部
    0.07
    0.06
    _above
    0.06
    Kyle
    0.06
    Act Density 0.062%

    No Known Activations