INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    να
    1.23
     بیاکت
    1.13
     It
    1.09
    1.02
     بیاکتنې
    0.99
    0.99
    पी
    0.98
    ススメ
    0.98
    𝗧
    0.98
    とおり
    0.96
    POSITIVE LOGITS
    2
    1.64
     
    1.38
    9
    1.26
     fear
    1.23
    8
    1.23
    1.20
    0
    1.20
    7
    1.15
    6
    1.10
    5
    1.08
    Act Density 0.041%

    No Known Activations