INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    私が
    0.42
    AND
    0.40
    Теперь
    0.40
    nested
    0.40
     मैंने
    0.39
    Мне
    0.39
    ѫ
    0.39
    0.38
    єте
    0.38
    हमने
    0.38
    POSITIVE LOGITS
     ഇത്
    0.42
    انه
    0.42
     formazione
    0.41
    colorbar
    0.40
    情节
    0.40
     اتفاق
    0.39
    രാഷ്ട്ര
    0.39
     دانش
    0.39
    ثمار
    0.38
     సూపర్
    0.38
    Act Density 0.000%

    No Known Activations