INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     for
    0.31
     efficacement
    0.30
    드를
    0.29
     été
    0.29
     ہم
    0.29
     הייתה
    0.28
     gewesen
    0.28
     drawRight
    0.28
     להי
    0.27
     been
    0.27
    POSITIVE LOGITS
    il
    0.36
    ling
    0.35
    f
    0.35
    ort
    0.34
    on
    0.34
    T
    0.33
    któ
    0.33
    ach
    0.32
     tämän
    0.32
    s
    0.32
    Act Density 0.063%

    No Known Activations