INDEX
    Explanations

    phrases and abbreviations

    New Auto-Interp
    Negative Logits
    к
    0.46
    ко
    0.46
    м
    0.46
    0.44
    0.44
    боль
    0.44
    0.44
    ить
    0.42
    𝐳
    0.41
    доз
    0.40
    POSITIVE LOGITS
     فی
    0.53
     आपला
    0.47
     بخ
    0.47
    insieme
    0.46
     συ
    0.46
     دارای
    0.46
    Sydney
    0.45
     הת
    0.44
     وخ
    0.44
     وع
    0.44
    Act Density 0.001%

    No Known Activations