INDEX
    Explanations

    current state

    New Auto-Interp
    Negative Logits
    ihn
    -0.08
     답변
    -0.07
     inspiring
    -0.07
    -0.07
    passed
    -0.06
    אישור
    -0.06
    _LVL
    -0.06
     asia
    -0.06
    שום
    -0.06
     Winners
    -0.06
    POSITIVE LOGITS
     Lazar
    0.08
     Patrol
    0.08
    graphics
    0.08
    盛宴
    0.07
    0.07
    ltra
    0.07
    lycer
    0.07
     któ
    0.07
    0.07
    (f
    0.07
    Act Density 0.029%

    No Known Activations