INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Hay
    -0.08
     glasses
    -0.07
     freeway
    -0.07
     fem
    -0.07
    rol
    -0.07
     foli
    -0.07
     compens
    -0.07
     aange
    -0.07
     anomal
    -0.07
    .utils
    -0.07
    POSITIVE LOGITS
     abr
    0.09
     scarcely
    0.08
     projet
    0.08
    ži
    0.08
     Willkommen
    0.08
     welkom
    0.08
     отдыха
    0.08
     принять
    0.07
    0.07
     willkommen
    0.07
    Act Density 0.036%

    No Known Activations