INDEX
    Explanations

    excessive negative states

    New Auto-Interp
    Negative Logits
     ليس
    0.45
    𝙉
    0.43
     bukan
    0.43
    ಾನೂ
    0.42
    abhuto
    0.42
    0.41
     不是
    0.40
    alors
    0.40
    不是
    0.40
    <unused2116>
    0.40
    POSITIVE LOGITS
     слишком
    0.50
     إدارة
    0.45
     Änderungen
    0.42
     undue
    0.41
     बनने
    0.40
     excessive
    0.40
     شدن
    0.40
    0.39
    尴尬
    0.39
    过多
    0.39
    Act Density 0.249%

    No Known Activations