INDEX
    Explanations

    action words followed by this

    New Auto-Interp
    Negative Logits
     jeweiligen
    0.52
     அவற்றில்
    0.52
     öyle
    0.50
     அவற்றை
    0.50
    它们的
    0.48
     नेहमी
    0.47
     அவற்ற
    0.46
     সেখানকার
    0.45
     ඒවා
    0.45
     sommige
    0.45
    POSITIVE LOGITS
     هذا
    3.58
     this
    3.56
     этого
    3.11
    this
    3.08
     этом
    3.05
     questo
    3.03
     This
    2.94
     این
    2.86
    This
    2.84
     цього
    2.83
    Act Density 0.312%

    No Known Activations