INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     apparently
    -0.08
    rub
    -0.07
    -0.07
     задум
    -0.07
    к
    -0.07
    exual
    -0.07
     seemingly
    -0.07
    oog
    -0.07
    кта
    -0.07
     beet
    -0.07
    POSITIVE LOGITS
    hood
    0.11
     מאוד
    0.10
    तः
    0.10
    情况下
    0.10
     جداً
    0.10
     voorkomende
    0.09
     جدًا
    0.09
     julọ
    0.09
    ρού
    0.08
    不会
    0.08
    Act Density 0.038%

    No Known Activations