INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Polar
    -0.07
     Pharmaceutical
    -0.07
    komm
    -0.07
    .Texture
    -0.07
    .Volume
    -0.07
    atung
    -0.07
     Foods
    -0.07
     වැඩ
    -0.07
     Texture
    -0.07
     electrical
    -0.07
    POSITIVE LOGITS
     preconce
    0.08
     സർക്ക
    0.08
    0.08
     impartial
    0.08
     imposed
    0.08
     impose
    0.08
    arhi
    0.08
    别人
    0.08
     الغرب
    0.08
    意见
    0.08
    Act Density 0.024%

    No Known Activations