INDEX
    Explanations

    pronoun or name followed by word

    New Auto-Interp
    Negative Logits
    ين
    0.66
    isst
    0.57
    í
    0.56
    ί
    0.56
     leaching
    0.53
    íns
    0.53
    0.51
    et
    0.50
    0.50
    ón
    0.50
    POSITIVE LOGITS
    ϭ
    0.58
    女性
    0.53
     ১৯৯
    0.52
    0.51
    0.49
    HIV
    0.49
    化物
    0.49
     Baghdad
    0.49
    цин
    0.48
    ायल
    0.48
    Act Density 1.934%

    No Known Activations