INDEX
    Explanations

    phrases including "out" or "down"

    New Auto-Interp
    Negative Logits
     ذو
    -0.08
    uby
    -0.08
    -0.08
    aterials
    -0.08
    elenium
    -0.07
     SBC
    -0.07
     slider
    -0.07
     إلي
    -0.07
     φύ
    -0.07
     ಕು
    -0.07
    POSITIVE LOGITS
    指出
    0.11
    0.10
    0.10
     darstellen
    0.10
    明确
    0.10
     बताते
    0.10
    ப்பட
    0.10
     dargestellt
    0.10
    体现
    0.10
     তুলে
    0.09
    Act Density 0.106%

    No Known Activations