INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     شما
    0.58
     вам
    0.57
     тебе
    0.52
     ім
    0.51
     você
    0.50
     मनुष्य
    0.50
     war
    0.50
     காவல்
    0.49
     bạn
    0.48
    І
    0.48
    POSITIVE LOGITS
     D
    0.59
    ק
    0.57
    עי
    0.52
    د
    0.51
    ના
    0.50
     delir
    0.49
    0.48
    サングラス
    0.47
    ס
    0.47
    ის
    0.47
    Act Density 0.001%

    No Known Activations