INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ни
    0.85
    ка
    0.60
    ی
    0.59
    та
    0.53
    iguation
    0.53
     concealing
    0.52
    が良い
    0.50
    ים
    0.50
    ों
    0.49
    ει
    0.49
    POSITIVE LOGITS
     
    0.70
    T
    0.70
    b
    0.62
     tots
    0.61
    <
    0.58
    0.58
     T
    0.55
    0.53
    פ
    0.53
    Et
    0.52
    Act Density 0.343%

    No Known Activations