INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     admire
    -0.07
     glac
    -0.07
    .Normalize
    -0.06
    /comments
    -0.06
    >Lorem
    -0.06
     maté
    -0.06
    番号
    -0.06
    .putText
    -0.06
    Im
    -0.06
    _first
    -0.06
    POSITIVE LOGITS
    	GL
    0.07
    0.06
     mentality
    0.06
     полит
    0.06
    /prom
    0.06
    rodní
    0.06
     hudeb
    0.06
    ्ग
    0.06
    την
    0.06
    .UserService
    0.06
    Act Density 0.002%

    No Known Activations