INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     från
    1.29
     
    1.21
     dari
    1.20
     avril
    1.13
     Estudios
    1.13
     la
    1.08
     lalu
    1.08
     auf
    1.07
     CA
    1.07
     from
    1.06
    POSITIVE LOGITS
    an
    1.65
    1.40
    l
    1.38
    k
    1.34
    on
    1.27
    a
    1.27
    in
    1.26
    ne
    1.20
    1.20
    1.19
    Act Density 0.820%

    No Known Activations