INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     را
    0.30
    𝙜
    0.28
    ىسى
    0.28
    0.27
     melindungi
    0.27
    akukan
    0.26
    را
    0.26
     থেকে
    0.26
    0.26
     ぐらい
    0.26
    POSITIVE LOGITS
     모든
    0.44
    その
    0.44
     새로운
    0.42
    0.40
     처음
    0.39
    特に
    0.35
    新たに
    0.35
     특히
    0.35
     가장
    0.34
     반드시
    0.34
    Act Density 0.013%

    No Known Activations