INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     jelent
    -0.08
     proportions
    -0.08
     shelf
    -0.08
     Jar
    -0.07
     seguida
    -0.07
    Jar
    -0.07
    ybės
    -0.07
    ieli
    -0.07
    memor
    -0.07
    -0.07
    POSITIVE LOGITS
     золот
    0.08
    0.08
    ्घ
    0.08
    েড
    0.08
    াকা
    0.08
     berk
    0.08
     صن
    0.08
    коў
    0.08
     винов
    0.08
     hypot
    0.07
    Act Density 0.002%

    No Known Activations