INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ikke
    0.51
    ไม่ใช่
    0.50
     nejsou
    0.49
    และ
    0.47
     tathapi
    0.47
     немає
    0.47
     apparence
    0.46
     नहीं
    0.46
     stesso
    0.46
     bukanlah
    0.46
    POSITIVE LOGITS
    л
    0.64
    ل
    0.61
    s
    0.55
    tt
    0.54
    af
    0.54
     Instead
    0.54
    t
    0.53
    Instead
    0.52
    k
    0.52
    cn
    0.51
    Act Density 0.044%

    No Known Activations