INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     پاک
    -0.07
     домашних
    -0.07
     nieuwe
    -0.06
    -den
    -0.06
    _ING
    -0.06
    .COMP
    -0.06
    τρο
    -0.06
     washing
    -0.06
    .filters
    -0.06
    conscious
    -0.06
    POSITIVE LOGITS
    ';↵
    0.07
    othy
    0.07
     زیادی
    0.07
    0.06
    ];
    ↵
    ↵
    0.06
     `}↵
    0.06
     }];↵↵
    0.06
     ""
    ↵
    0.06
    .\
    0.06
    ();++
    0.06
    Act Density 0.008%

    No Known Activations