INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     flamb
    -0.10
    andika
    -0.08
     حب
    -0.08
     Pixar
    -0.08
    Pretty
    -0.08
    /String
    -0.08
    illy
    -0.07
    venir
    -0.07
    Prime
    -0.07
    ximately
    -0.07
    POSITIVE LOGITS
     rends
    0.09
     aller
    0.09
    ür
    0.09
     szak
    0.09
     Hungary
    0.09
     szám
    0.08
     szer
    0.08
     Wür
    0.08
     νό
    0.08
     több
    0.08
    Act Density 0.032%

    No Known Activations