INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     these
    0.48
     worse
    0.46
     ذلك
    0.46
     बीसीसीआई
    0.45
     حتی
    0.45
     Otherwise
    0.44
     वरना
    0.43
     more
    0.43
     Likewise
    0.43
     These
    0.42
    POSITIVE LOGITS
    монт
    0.43
    мот
    0.43
    ihanna
    0.42
    ulle
    0.42
    munder
    0.42
     chcia
    0.40
    0.40
    我们要
    0.40
    ifrån
    0.39
    它可以
    0.38
    Act Density 0.236%

    No Known Activations