INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     hardcore
    -0.08
     fede
    -0.08
     faithful
    -0.07
     unterwegs
    -0.07
    IRONMENT
    -0.07
    bliche
    -0.07
     earnest
    -0.07
    wanag
    -0.07
    ENGE
    -0.07
     dager
    -0.07
    POSITIVE LOGITS
     선정
    0.12
     criteria
    0.09
     निक
    0.09
     lọ
    0.09
    Criteria
    0.08
    ગી
    0.08
     Criteria
    0.08
    别人
    0.08
     criterios
    0.08
     नाही
    0.08
    Act Density 0.037%

    No Known Activations