INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     поля
    -0.07
     ErrorHandler
    -0.07
     branding
    -0.06
    設備
    -0.06
     yerleştir
    -0.06
     Koch
    -0.06
     oversh
    -0.05
    ają
    -0.05
    -language
    -0.05
    attery
    -0.05
    POSITIVE LOGITS
    ξε
    0.07
    aea
    0.07
     Pet
    0.07
    MIT
    0.07
     nevy
    0.07
    со
    0.06
    xi
    0.06
    ние
    0.06
    ución
    0.06
    ampion
    0.06
    Act Density 0.038%

    No Known Activations