INDEX
    Explanations

    numbers before categories

    New Auto-Interp
    Negative Logits
     bitten
    1.16
    اب
    1.15
     eben
    1.11
    似的
    1.11
    '
    1.08
     із
    1.03
    0
    1.02
     afield
    1.02
    ž
    1.02
     électronique
    1.01
    POSITIVE LOGITS
    ยนตร์
    1.17
     разные
    1.13
    lation
    1.06
    ۴
    1.05
    مة
    1.05
    πο
    1.01
    deki
    1.00
    دو
    1.00
    درا
    0.98
    lerdir
    0.98
    Act Density 0.120%

    No Known Activations