INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    tration
    -0.07
    	             
    -0.07
     Hobby
    -0.07
    agno
    -0.07
    buddy
    -0.07
    state
    -0.07
     पार्टी
    -0.07
     Ly
    -0.07
     marcado
    -0.07
    SHA
    -0.07
    POSITIVE LOGITS
     הדבר
    0.10
     meanings
    0.09
     tom
    0.09
    意义
    0.08
    geving
    0.08
    নীতি
    0.08
     vụ
    0.08
    fully
    0.08
     guud
    0.08
    ல்ல
    0.08
    Act Density 0.029%

    No Known Activations