INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     gpointer
    -0.07
     stopwords
    -0.06
    かった
    -0.06
     آنجا
    -0.06
     factors
    -0.06
    =url
    -0.06
     غذ
    -0.06
     setback
    -0.06
     datap
    -0.06
    되었
    -0.06
    POSITIVE LOGITS
     Hard
    0.07
    OLUM
    0.07
    0.06
     erf
    0.06
    ौल
    0.06
     табли
    0.06
     MAK
    0.06
    SS
    0.06
     emot
    0.06
    ICH
    0.06
    Act Density 0.097%

    No Known Activations