INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    روی
    -0.08
     itemprop
    -0.07
    аря
    -0.07
     flair
    -0.07
    achel
    -0.06
    }↵↵↵↵↵
    -0.06
    Registr
    -0.06
    vocab
    -0.06
     text
    -0.06
     importer
    -0.06
    POSITIVE LOGITS
     frameborder
    0.07
     با
    0.07
    UnderTest
    0.07
     ขนาด
    0.06
    Sab
    0.06
     σου
    0.06
    iteration
    0.06
     وب
    0.06
     interchange
    0.06
    -stack
    0.06
    Act Density 0.003%

    No Known Activations