INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     inputs
    -0.07
    	Test
    -0.07
     monet
    -0.07
     conosc
    -0.06
    心理
    -0.06
     filmes
    -0.06
    -0.06
     Heller
    -0.06
    Value
    -0.06
    (Index
    -0.06
    POSITIVE LOGITS
     člán
    0.06
    TT
    0.06
    rade
    0.06
    แสง
    0.06
     هذا
    0.06
    全球
    0.06
     Microsoft
    0.06
    .exist
    0.06
    dam
    0.06
    ียนร
    0.06
    Act Density 0.006%

    No Known Activations