INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     belangrijkste
    0.58
    طيب
    0.54
     dört
    0.54
     ወይም
    0.53
     üç
    0.53
    മല്ല
    0.51
    אל
    0.48
     എസ്
    0.48
     الأبيض
    0.48
    َن
    0.48
    POSITIVE LOGITS
    ,
    0.80
    est
    0.68
    तम
    0.64
    ening
    0.63
    .
    0.60
    大的
    0.60
    ish
    0.59
    hearted
    0.59
    !
    0.59
    t
    0.58
    Act Density 0.143%

    No Known Activations