INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    vět
    0.98
    text
    0.97
    thest
    0.96
    verständlich
    0.88
     be
    0.88
    AV
    0.86
    BUT
    0.86
    的设计
    0.86
    的产品
    0.86
    はもちろん
    0.83
    POSITIVE LOGITS
    ل
    1.98
    at
    1.46
    a
    1.38
    ه
    1.38
    n
    1.33
    el
    1.27
    я
    1.24
    ת
    1.23
    ির
    1.16
    ה
    1.16
    Act Density 0.026%

    No Known Activations