INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     пузыр
    -0.08
    gha
    -0.08
    .dictionary
    -0.07
     DEM
    -0.07
    isten
    -0.07
     ба
    -0.07
     verre
    -0.07
     norma
    -0.07
     billion
    -0.07
     parag
    -0.07
    POSITIVE LOGITS
    0.08
     firing
    0.08
     שבע
    0.07
     fierc
    0.07
    首次
    0.07
     physics
    0.07
     fires
    0.07
     الفنية
    0.07
     બની
    0.07
    เกิด
    0.07
    Act Density 0.000%

    No Known Activations