INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.09
    なん
    -0.08
     thuật
    -0.08
    701
    -0.08
     делу
    -0.08
     hostage
    -0.08
     Fuck
    -0.08
     состояния
    -0.07
     Stück
    -0.07
     istr
    -0.07
    POSITIVE LOGITS
    алах
    0.08
    ].[
    0.08
    headline
    0.07
    кач
    0.07
     prins
    0.07
    >((
    0.07
    0.07
    >{{
    0.07
     outlining
    0.07
    odra
    0.07
    Act Density 0.010%

    No Known Activations