INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     între
    0.41
     retort
    0.37
     kræ
    0.36
     Ε
    0.36
    thumbs
    0.35
     plais
    0.35
     सर्वप्रथम
    0.35
     mnogo
    0.35
     ஏற்பட்டது
    0.35
    bringing
    0.34
    POSITIVE LOGITS
    Nepal
    0.35
    Assuming
    0.33
     Phnom
    0.33
     Bhutan
    0.32
    цију
    0.31
     Kuala
    0.31
    Asian
    0.31
     Physik
    0.31
     Dhaka
    0.30
     Anadolu
    0.30
    Act Density 0.005%

    No Known Activations