INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.06
     Bukkit
    -0.06
     movies
    -0.06
     zoo
    -0.06
    -0.06
     standards
    -0.06
    -word
    -0.06
    aja
    -0.06
    STER
    -0.06
    oud
    -0.06
    POSITIVE LOGITS
     разработ
    0.08
    .sale
    0.07
    ificacion
    0.07
    φαρ
    0.07
    0.07
     защиты
    0.06
    0.06
    0.06
    ائمة
    0.06
    0.06
    Act Density 0.015%

    No Known Activations