INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     estremamente
    0.36
    0.35
    0.33
     ReLU
    0.33
    おか
    0.32
    NYC
    0.31
     오는
    0.31
    PT
    0.31
     שה
    0.30
     Abbiamo
    0.30
    POSITIVE LOGITS
    i
    0.52
    ي
    0.51
    -
    0.45
    กับ
    0.44
    पणे
    0.44
    ใน
    0.39
    ,
    0.35
    à
    0.35
    <0xB2>
    0.35
    तः
    0.34
    Act Density 0.314%

    No Known Activations