INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     йому
    -0.07
    -0.06
    strike
    -0.06
    anela
    -0.06
    기로
    -0.06
     tire
    -0.06
     potato
    -0.06
     політи
    -0.06
    ของค
    -0.06
     bicycle
    -0.06
    POSITIVE LOGITS
    ']]['
    0.07
    %;"
    0.07
    ा-
    0.06
    BOX
    0.06
    ;}
    ↵
    0.06
     +
    0.06
    ]
    0.06
    ::-
    0.06
    %).
    0.06
     )->
    0.06
    Act Density 0.199%

    No Known Activations