INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    具体的
    0.44
     specifically
    0.38
     אותו
    0.37
     μπορεί
    0.35
    ลอด
    0.35
     lacked
    0.34
     bleibt
    0.34
     বিরাট
    0.34
    特定的
    0.34
     изменения
    0.34
    POSITIVE LOGITS
     ordinary
    0.98
     normal
    0.95
     normale
    0.93
    ordinary
    0.90
     обы
    0.88
     സാധാരണ
    0.86
     சாதாரண
    0.85
     normalen
    0.83
     обычной
    0.82
    normal
    0.82
    Act Density 0.045%

    No Known Activations