INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     podium
    -0.06
    гля
    -0.06
     qualité
    -0.06
     alimentos
    -0.06
     CIA
    -0.06
    orio
    -0.06
    IODevice
    -0.06
     ECB
    -0.06
    Dep
    -0.06
    ña
    -0.06
    POSITIVE LOGITS
     bild
    0.07
     {}↵↵
    0.07
     vešker
    0.06
    üy
    0.06
    0.06
    ").↵↵
    0.06
     кож
    0.06
    "/>↵↵
    0.06
    攻撃
    0.06
    JKLM
    0.06
    Act Density 0.183%

    No Known Activations