INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     originale
    0.80
     original
    0.74
    ~。
    0.74
    的意思
    0.73
     رجال
    0.73
     betekent
    0.73
     Beaut
    0.72
     connaît
    0.72
     surprised
    0.71
     alguma
    0.70
    POSITIVE LOGITS
    <h4>
    2.55
    <h5>
    2.11
    <h6>
    2.11
    <h3>
    1.93
    <h1>
    1.52
    </h4>
    1.43
    <h2>
    1.42
    View
    1.42
    VIEW
    1.38
    view
    1.31
    Act Density 0.000%

    No Known Activations