INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Frage
    0.26
    ждение
    0.26
    лей
    0.25
     содержит
    0.25
     obsahuje
    0.25
    lass
    0.24
    meisterschaft
    0.24
    Gauche
    0.24
    anguage
    0.24
     jest
    0.24
    POSITIVE LOGITS
    howto
    0.30
     اپنی
    0.30
    Օ
    0.26
     अपनी
    0.26
     proactively
    0.26
     accès
    0.25
     awaken
    0.25
     out
    0.24
     свою
    0.24
     ү
    0.24
    Act Density 0.002%

    No Known Activations