INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    clamation
    0.70
    ləşdir
    0.67
    instagood
    0.65
     ಘೋಷ
    0.64
    セス
    0.63
     zamanda
    0.62
     odstr
    0.62
    Ͻ
    0.62
    cadia
    0.62
     Wird
    0.61
    POSITIVE LOGITS
     different
    5.20
     diferentes
    4.75
     Different
    4.73
    different
    4.69
    Different
    4.59
    不同的
    4.59
     differing
    4.45
    不同
    4.28
     unterschied
    4.27
     diferente
    4.23
    Act Density 1.450%

    No Known Activations