INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     pus
    -0.07
    цію
    -0.07
    _organization
    -0.07
     wart
    -0.07
     xlim
    -0.07
    -other
    -0.07
    ustry
    -0.07
     cw
    -0.07
    .adj
    -0.07
     χώ
    -0.07
    POSITIVE LOGITS
     headlines
    0.13
     headline
    0.10
    lines
    0.07
     hlavou
    0.07
    0.06
    enable
    0.06
    _CONSOLE
    0.06
    主要
    0.06
     вел
    0.06
     zpět
    0.06
    Act Density 0.004%

    No Known Activations