INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    νει
    0.57
    håll
    0.52
    нов
    0.50
    торе
    0.50
    कुंड
    0.49
     জিনিসের
    0.48
    ن
    0.48
    0.48
    نیم
    0.48
     шпански
    0.48
    POSITIVE LOGITS
     as
    0.65
    /
    0.61
     a
    0.59
    '
    0.56
    $
    0.55
    ,
    0.54
    ;
    0.54
    ',
    0.54
     loudly
    0.54
     -
    0.53
    Act Density 0.002%

    No Known Activations