INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    なども
    0.33
    これも
    0.32
     and
    0.31
     zudem
    0.30
    也是
    0.30
    .
    0.30
    אן
    0.30
    各種
    0.29
    และ
    0.29
     причем
    0.29
    POSITIVE LOGITS
     όταν
    0.41
     imagine
    0.40
     WASTE
    0.38
     όσο
    0.38
    当我们
    0.37
     Someone
    0.36
     we
    0.36
     আমরা
    0.36
    有人
    0.36
     Когда
    0.35
    Act Density 0.058%

    No Known Activations