INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     premise
    -0.08
     ב
    -0.08
    -0.08
     poč
    -0.07
    <<<<<<<
    -0.07
     ಗೋ
    -0.07
     அழ
    -0.07
     Ce
    -0.07
    Trump
    -0.07
     metaphor
    -0.07
    POSITIVE LOGITS
    -region
    0.08
    Zimbabwe
    0.08
     Rioja
    0.08
    -eche
    0.08
    .region
    0.07
    ுதி
    0.07
    0.07
    wide
    0.07
    bab
    0.07
     অঞ্চ
    0.07
    Act Density 0.016%

    No Known Activations