INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     importantes
    0.45
    这点
    0.42
    这一点
    0.41
     fact
    0.40
     wichtiger
    0.39
     Tatsache
    0.39
     importanti
    0.39
     najbardziej
    0.38
     mencionar
    0.38
     mattered
    0.38
    POSITIVE LOGITS
     premise
    1.27
     gist
    1.16
     basic
    0.98
    basic
    0.88
    基本
    0.88
    基本的な
    0.86
    的基本
    0.85
     idea
    0.85
     basis
    0.82
     essence
    0.79
    Act Density 0.082%

    No Known Activations