INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     accordingly
    0.36
    ations
    0.34
     яхшы
    0.34
    6
    0.34
     cheeses
    0.33
    0.33
    ப்புகள்
    0.33
     installations
    0.32
    திகள்
    0.32
    </td>
    0.32
    POSITIVE LOGITS
     უფრო
    0.50
     이번
    0.48
     більш
    0.46
     πιο
    0.44
     insidious
    0.44
    这次
    0.43
    這次
    0.43
     डायरेक्टली
    0.43
    이번
    0.43
     zusätzlichen
    0.42
    Act Density 0.352%

    No Known Activations