INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    g
    0.51
    ные
    0.50
     взя
    0.50
    0.50
    В
    0.46
     функції
    0.46
    För
    0.45
     duyệt
    0.45
    các
    0.44
     
    0.44
    POSITIVE LOGITS
     for
    0.45
    0.44
     encro
    0.43
     Abou
    0.41
    et
    0.41
    ataka
    0.40
    0
    0.39
    .
    0.39
     universities
    0.39
     affiliates
    0.39
    Act Density 0.001%

    No Known Activations