INDEX
    Explanations

    identifies prohibited actions

    New Auto-Interp
    Negative Logits
     هذا
    0.61
     this
    0.54
    這個
    0.52
    This
    0.49
     لهذا
    0.48
    この
    0.48
     tomto
    0.48
     tämä
    0.47
     этого
    0.47
     यह
    0.47
    POSITIVE LOGITS
     famed
    0.38
    ловать
    0.38
    ките
    0.36
     همچنین
    0.35
    0.35
    చ్
    0.34
    <0xB2>
    0.34
     glor
    0.34
     environs
    0.34
     досто
    0.34
    Act Density 0.081%

    No Known Activations