INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    千万
    -0.07
    夜里
    -0.07
    -filter
    -0.07
    Silver
    -0.07
    지고
    -0.07
    ponce
    -0.07
     есть
    -0.07
    jours
    -0.07
     Tunis
    -0.06
     llegar
    -0.06
    POSITIVE LOGITS
    \Extension
    0.08
     SHOP
    0.07
    .exc
    0.07
    !I
    0.07
    一種
    0.07
    制止
    0.07
     enabling
    0.06
    metal
    0.06
    0.06
    0.06
    Act Density 0.144%

    No Known Activations