INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ګرځنده
    0.76
    ம்பரிய
    0.70
     NOx
    0.69
     بیټ
    0.68
    ляць
    0.68
     وړاندوینې
    0.67
     لوبه
    0.67
     кеңселер
    0.66
     Бекер
    0.66
    𝘫
    0.66
    POSITIVE LOGITS
     không
    1.33
     thông
    1.20
     các
    1.19
     với
    1.16
     bạn
    1.16
     như
    1.16
     giúp
    1.15
    1.14
     chính
    1.14
     của
    1.13
    Act Density 0.014%

    No Known Activations