INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     któ
    1.33
     sebaik
    1.27
     Änderung
    1.23
    1.23
    سی
    1.20
    $)
    1.20
    ted
    1.20
    tif
    1.20
     thèse
    1.19
     Repert
    1.19
    POSITIVE LOGITS
    ن
    1.59
    ع
    1.59
     the
    1.48
    1.45
    1
    1.36
    2
    1.36
    4
    1.36
    9
    1.36
    7
    1.35
    3
    1.34
    Act Density 0.270%

    No Known Activations