INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    532
    -0.09
     model
    -0.08
     wall
    -0.08
     analysis
    -0.07
     
    -0.07
    all
    -0.07
    kow
    -0.07
    13
    -0.07
    lob
    -0.07
     total
    -0.07
    POSITIVE LOGITS
     preferably
    0.11
     желательно
    0.11
     предпочт
    0.10
    для
    0.10
    เพื่อ
    0.10
     сюда
    0.10
    이면
    0.10
     preferable
    0.10
     여기
    0.09
     разные
    0.09
    Act Density 0.004%

    No Known Activations