INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     protein
    -0.07
    ριο
    -0.06
     <!
    -0.06
     tel
    -0.06
     orang
    -0.06
    $num
    -0.06
     Lot
    -0.06
    áf
    -0.06
    числ
    -0.06
    -0.06
    POSITIVE LOGITS
     droit
    0.07
     Blockly
    0.06
    ."[
    0.06
    .[
    0.06
     hlub
    0.06
     "'"
    0.06
    Viol
    0.06
     χωρίς
    0.06
     huku
    0.06
    。不
    0.06
    Act Density 0.012%

    No Known Activations