INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Ahead
    -0.10
    עם
    -0.09
    Restr
    -0.08
    ת
    -0.07
     Restr
    -0.07
     produz
    -0.07
    	T
    -0.07
    ותר
    -0.07
     Hind
    -0.07
     Gast
    -0.07
    POSITIVE LOGITS
     excuse
    0.10
     சர
    0.08
     excuses
    0.08
     explanations
    0.08
     diaphr
    0.08
     ಅಲ್ಲ
    0.07
     déco
    0.07
    0.07
     descul
    0.07
     valable
    0.07
    Act Density 0.004%

    No Known Activations