INDEX
    Explanations

    building and having things

    New Auto-Interp
    Negative Logits
     insgesamt
    0.42
    いくつかの
    0.41
     berbagai
    0.41
     відповід
    0.41
     approximations
    0.40
    க்கப்பட்ட
    0.40
    呼ば
    0.40
     Е
    0.39
     mehrerer
    0.39
     kellett
    0.39
    POSITIVE LOGITS
     имеют
    0.51
     знают
    0.50
     имају
    0.50
    utim
    0.49
     proudly
    0.49
     responsibly
    0.49
     любят
    0.49
     imaju
    0.48
     любит
    0.48
     دارند
    0.47
    Act Density 0.015%

    No Known Activations