INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    inalg
    -0.06
    .Prot
    -0.06
     nilai
    -0.06
     itr
    -0.06
    -opacity
    -0.06
     rue
    -0.06
     کد
    -0.06
     **
    -0.06
     disliked
    -0.06
     OTP
    -0.06
    POSITIVE LOGITS
     blasph
    0.09
    -feed
    0.07
    vatel
    0.07
     borrowing
    0.07
     Horde
    0.07
     vind
    0.07
     blas
    0.07
    хран
    0.06
     exp
    0.06
    0.06
    Act Density 0.004%

    No Known Activations