INDEX
    Explanations

    punctuation marks

    New Auto-Interp
    Negative Logits
     IDENT
    -0.07
    最终
    -0.07
     mean
    -0.07
     JD
    -0.07
     portrait
    -0.07
     idea
    -0.07
     Via
    -0.07
    有时
    -0.07
     Wak
    -0.07
     Совет
    -0.07
    POSITIVE LOGITS
     realloc
    0.07
    dense
    0.07
    typed
    0.07
    pressive
    0.07
    providers
    0.07
    ämpfe
    0.07
    ENCIL
    0.07
    0.07
    games
    0.07
    	resource
    0.07
    Act Density 0.142%

    No Known Activations