INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     algebra
    -0.07
     hiệu
    -0.07
    {|
    -0.07
     sabor
    -0.07
     nonsense
    -0.07
    omial
    -0.07
    Preset
    -0.07
     방식
    -0.07
    итера
    -0.07
    _Length
    -0.07
    POSITIVE LOGITS
     그는
    0.10
     narrator
    0.09
    0.09
    主人
    0.09
     teenager
    0.09
    主播
    0.09
    护士
    0.09
     militants
    0.09
    记者
    0.09
    医生
    0.09
    Act Density 0.086%

    No Known Activations