INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Bair
    -0.10
    ku
    -0.09
    stile
    -0.09
     proofs
    -0.09
     fos
    -0.09
    ãĥ¼ãĥĬ
    -0.08
    _UI
    -0.08
    aren
    -0.08
     sill
    -0.08
    rief
    -0.08
    POSITIVE LOGITS
     below
    0.24
     Below
    0.21
    below
    0.21
    Below
    0.21
    ä¸ĭ
    0.19
    以ä¸ĭ
    0.18
     ä¸ĭ
    0.17
     ниже
    0.17
    _below
    0.16
     ìķĦëŀĺ
    0.15
    Act Density 0.206%

    No Known Activations