INDEX
    Explanations

    affirmations

    New Auto-Interp
    Negative Logits
    -0.07
     folly
    -0.07
    asionally
    -0.07
    תשוב
    -0.07
    Professor
    -0.06
    ember
    -0.06
     Duffy
    -0.06
    	Client
    -0.06
    Artist
    -0.06
    䀀
    -0.06
    POSITIVE LOGITS
    0.08
    的行为
    0.08
    地球
    0.07
    (ws
    0.07
    轻松
    0.07
     universe
    0.07
    .Rule
    0.07
    0.07
     Looking
    0.07
    行政区
    0.07
    Act Density 0.022%

    No Known Activations