INDEX
    Explanations

    common English words

    New Auto-Interp
    Negative Logits
     ranc
    -0.07
     interiores
    -0.07
     Bore
    -0.07
     vivo
    -0.07
     Liv
    -0.07
    -0.07
     इंटरनेट
    -0.07
     acr
    -0.07
    internet
    -0.07
    ifun
    -0.07
    POSITIVE LOGITS
     которых
    0.11
     которого
    0.11
     которой
    0.10
    ируя
    0.08
     laissant
    0.08
     ли
    0.08
    шая
    0.08
     яких
    0.08
    ですよ
    0.08
     прояв
    0.08
    Act Density 0.495%

    No Known Activations