INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     الکترون
    -0.07
    nda
    -0.07
    -0.07
    テレビ
    -0.07
    -0.07
     l
    -0.06
    lığının
    -0.06
     innovate
    -0.06
    lediği
    -0.06
     Ngoài
    -0.06
    POSITIVE LOGITS
     přip
    0.07
    0.07
     referral
    0.07
    0.06
     mistake
    0.06
    	FOR
    0.06
     δι
    0.06
    лов
    0.06
     VOID
    0.06
    orient
    0.06
    Act Density 0.009%

    No Known Activations