INDEX
    Explanations

    news, article, press, joint

    New Auto-Interp
    Negative Logits
    ی
    0.33
     
    0.32
    _
    0.31
    ,
    0.28
    .
    0.28
     کنند
    0.27
    0.27
    ς
    0.27
     &
    0.27
    ly
    0.27
    POSITIVE LOGITS
     Jawaharlal
    0.36
     ನಾಲ್
    0.35
    0.32
     совместно
    0.32
    <unused402>
    0.32
    0.31
     ബാറ്ററി
    0.30
    9
    0.30
    存档备份
    0.30
    อะคาเดมี
    0.30
    Act Density 0.012%

    No Known Activations