INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    to
    1.17
    ed
    1.14
    n
    1.00
    l
    0.99
    r
    0.93
    ى
    0.90
    an
    0.88
    b
    0.87
    ième
    0.81
    o
    0.81
    POSITIVE LOGITS
    ی
    1.00
     воду
    0.81
    га
    0.80
     доба
    0.79
    0.79
     були
    0.78
     abbia
    0.78
     άλλα
    0.77
     haue
    0.76
    ator
    0.75
    Act Density 0.000%

    No Known Activations