INDEX
    Explanations

    making or allowing actions

    New Auto-Interp
    Negative Logits
     이용하여
    0.51
     katika
    0.49
     adrift
    0.49
     کیسے
    0.48
     چگونه
    0.48
    elenggarakan
    0.48
     out
    0.48
     bewild
    0.47
     الى
    0.47
     together
    0.47
    POSITIVE LOGITS
    一定的
    0.44
    0.39
     এর
    0.38
     इसका
    0.37
     Ret
    0.37
     néhány
    0.37
    一些
    0.36
     कुछ
    0.36
     थोड़ी
    0.36
     `=`
    0.35
    Act Density 0.101%

    No Known Activations