INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -même
    -0.10
     haine
    -0.08
     insisting
    -0.08
     બંધ
    -0.08
    usize
    -0.08
     biology
    -0.08
     лёг
    -0.07
    arity
    -0.07
     Biology
    -0.07
     основной
    -0.07
    POSITIVE LOGITS
     prosecution
    0.08
    കര
    0.08
     cray
    0.08
    انه
    0.07
    0.07
     extern
    0.07
    0.07
    Enough
    0.07
    heids
    0.07
    🏼
    0.07
    Act Density 0.006%

    No Known Activations