INDEX
    Explanations

    ambiguity and disambiguation

    New Auto-Interp
    Negative Logits
    0.45
    ffiti
    0.43
    ষ্ণ
    0.43
    レール
    0.40
     χαρακτη
    0.39
    0.38
    0.38
     koncent
    0.38
     nutrit
    0.37
    шками
    0.37
    POSITIVE LOGITS
     ambiguity
    2.50
     ambiguous
    2.41
     ambiguities
    2.41
     disamb
    1.98
     ambigu
    1.98
     Amb
    1.69
    Amb
    1.63
    disamb
    1.61
    1.53
     unambiguous
    1.52
    Act Density 0.043%

    No Known Activations