INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    u
    0.57
    ptr
    0.52
    _
    0.52
     de
    0.51
    ll
    0.51
    id
    0.50
    m
    0.49
    ra
    0.47
     type
    0.47
    ls
    0.47
    POSITIVE LOGITS
     gleiche
    0.57
    Gesch
    0.55
    Tarefa
    0.53
     zmiany
    0.50
    য়োজন
    0.49
     gleichen
    0.49
     étroites
    0.49
     Stelle
    0.48
    에서는
    0.48
    Czas
    0.48
    Act Density 0.471%

    No Known Activations