INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    /or
    -0.07
    _S
    -0.07
    care
    -0.07
    ematic
    -0.07
    уйста
    -0.07
     التح
    -0.07
    _NOT
    -0.07
     pitfalls
    -0.07
    にな
    -0.07
    itsu
    -0.07
    POSITIVE LOGITS
     പറയ
    0.13
     القول
    0.13
     કહી
    0.13
     कहना
    0.13
     сказать
    0.12
     dizer
    0.11
     sagen
    0.11
     বলতে
    0.11
     afirmar
    0.11
     mengatakan
    0.10
    Act Density 0.130%

    No Known Activations