INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    is
    -1.48
     \
    -1.47
     {
    -1.45
     time
    -1.44
    身为
    -1.42
    áva
    -1.38
     my
    -1.36
    几个人
    -1.35
    ließt
    -1.34
     şi
    -1.34
    POSITIVE LOGITS
    Krankheitsbild
    1.59
    sekret
    1.57
    fährt
    1.54
    𞤢
    1.53
     soñar
    1.52
    1.52
    1.50
    köz
    1.50
    1.49
    1.46
    Act Density 0.000%

    No Known Activations