INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.46
    ロール
    0.41
     फो
    0.39
    ätten
    0.37
    ポーツ
    0.36
    URAL
    0.36
    soph
    0.35
    𝕌
    0.35
     Foil
    0.34
    ermos
    0.34
    POSITIVE LOGITS
     codeword
    0.41
     Corne
    0.38
     Y
    0.37
     burs
    0.36
    xb
    0.36
     bolt
    0.36
     Ku
    0.35
     LDA
    0.35
     bors
    0.35
     codewords
    0.35
    Act Density 0.008%

    No Known Activations