INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    ונים
    0.93
    ines
    0.92
    ary
    0.90
    ettes
    0.89
    ال
    0.86
    ING
    0.86
    ;
    0.85
    0.85
    us
    0.82
    ights
    0.82
    POSITIVE LOGITS
    gehend
    1.09
    1.05
    がございます
    1.02
    こと
    1.01
    τευ
    1.01
     Hacer
    0.98
     Jefe
    0.96
    可以通过
    0.96
     Siempre
    0.96
    0.96
    Act Density 0.000%

    No Known Activations