INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ן
    1.50
    یا
    1.22
    ла
    1.16
    דה
    1.14
    טים
    1.13
    גר
    1.08
    ють
    1.05
    טר
    1.03
    یە
    1.02
    0.99
    POSITIVE LOGITS
    and
    1.23
     أساس
    1.09
    in
    1.07
     إ
    1.07
    end
    1.06
    1.06
    ني
    1.03
    ق
    1.03
     أخرى
    1.01
    1.00
    Act Density 0.000%

    No Known Activations