INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -comp
    -0.06
     buddies
    -0.06
     всем
    -0.06
    _inputs
    -0.06
    لب
    -0.06
     rites
    -0.06
     sailors
    -0.06
     peng
    -0.05
    -0.05
     عراق
    -0.05
    POSITIVE LOGITS
    **
    ↵
    0.07
     triumph
    0.07
    ////////////////////////////////////////////////////////////////
    0.07
     Labels
    0.07
    ~↵
    0.07
     ülkenin
    0.06
    dialog
    0.06
     incontro
    0.06
    /place
    0.06
    アル
    0.06
    Act Density 0.034%

    No Known Activations