INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     μπορεί
    -0.07
    ใจ
    -0.07
    	obj
    -0.06
     나라
    -0.06
     має
    -0.06
     yerini
    -0.06
    [Y
    -0.06
    defines
    -0.06
     Ρ
    -0.06
    -0.06
    POSITIVE LOGITS
    Fcn
    0.07
    .slim
    0.06
     taxa
    0.06
    .Identity
    0.06
     Denver
    0.06
     Chuck
    0.06
    .getElementById
    0.06
     screens
    0.06
     wit
    0.06
     Everyone
    0.06
    Act Density 0.008%

    No Known Activations