INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     розум
    -0.07
    chos
    -0.06
     ترجم
    -0.06
    itives
    -0.06
     цен
    -0.06
    -0.06
     отп
    -0.06
     власти
    -0.06
    работ
    -0.06
     киш
    -0.06
    POSITIVE LOGITS
     ];↵↵
    0.07
     anti
    0.07
     Ultr
    0.06
     orbit
    0.06
     wiki
    0.06
    /W
    0.06
    472
    0.06
     non
    0.06
     agree
    0.06
    0.06
    Act Density 0.000%

    No Known Activations