INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    el
    1.60
     
    1.52
    al
    1.41
    ला
    1.39
    ik
    1.35
    im
    1.31
    را
    1.29
    ling
    1.22
    ون
    1.22
    il
    1.19
    POSITIVE LOGITS
    <0xF3>
    1.20
    のは
    1.10
    ার
    1.07
    ка
    1.07
     ו
    1.05
     entiende
    1.04
     apie
    1.01
    ০০
    1.00
    ান্তরিত
    0.97
    р
    0.97
    Act Density 0.000%

    No Known Activations