INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    そういう
    -0.82
    Consumed
    -0.82
    Exemple
    -0.78
    Rég
    -0.77
    そういった
    -0.75
    実感
    -0.74
    立場
    -0.74
     Cochran
    -0.73
     Silverman
    -0.73
     أما
    -0.72
    POSITIVE LOGITS
    gg
    0.86
    idemiology
    0.84
    ism
    0.79
    react
    0.79
     center
    0.77
     представления
    0.75
    izia
    0.73
    ちゃんの
    0.73
    unta
    0.73
    hist
    0.73
    Act Density 0.007%

    No Known Activations