INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     гост
    -0.08
     totalidad
    -0.08
    Mention
    -0.08
     social
    -0.08
    /respond
    -0.07
     guía
    -0.07
     navigating
    -0.07
    _social
    -0.07
    unjung
    -0.07
    /aut
    -0.07
    POSITIVE LOGITS
     Gramm
    0.09
    bers
    0.08
    Υ
    0.07
    bos
    0.07
     Mink
    0.07
     Berl
    0.07
     Aron
    0.07
     κάπο
    0.07
    」「
    0.07
    ある
    0.07
    Act Density 0.018%

    No Known Activations