INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    L
    0.49
    S
    0.46
     println
    0.46
    ულია
    0.46
    H
    0.46
     trypsin
    0.43
    x
    0.42
     positives
    0.41
    D
    0.41
     lien
    0.41
    POSITIVE LOGITS
    ના
    0.58
     поддержи
    0.55
     социа
    0.54
     модели
    0.52
     библиотека
    0.52
    ER
    0.51
     суще
    0.51
     будут
    0.51
     публи
    0.51
     сказать
    0.51
    Act Density 0.000%

    No Known Activations