INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    いろいろ
    0.58
     goodies
    0.57
     মোটামুটি
    0.52
     মনোরম
    0.51
     nuis
    0.50
     سبسڈی
    0.50
     elaboración
    0.49
     utiles
    0.49
     receptacles
    0.49
     좋은
    0.48
    POSITIVE LOGITS
     اگه
    0.59
     uncover
    0.50
    </h3>
    0.48
     deberán
    0.47
    IVATE
    0.46
    Could
    0.46
     اگر
    0.45
    irse
    0.45
     quando
    0.43
     swore
    0.43
    Act Density 0.042%

    No Known Activations