INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    	Delete
    -0.07
    =form
    -0.07
    .Template
    -0.06
    держ
    -0.06
    公里
    -0.06
    -0.06
    「你
    -0.06
     Таким
    -0.06
    .webkit
    -0.06
    USE
    -0.06
    POSITIVE LOGITS
    (userData
    0.07
    имости
    0.07
     Luo
    0.07
    ected
    0.07
     Prix
    0.07
     Mad
    0.06
     responsible
    0.06
    iences
    0.06
    .disconnect
    0.06
     firing
    0.06
    Act Density 0.002%

    No Known Activations