INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     invented
    -0.07
    hop
    -0.07
    流感
    -0.07
    ız
    -0.07
    𬬱
    -0.07
    أت
    -0.07
     mentioned
    -0.06
    hope
    -0.06
    -0.06
    👫
    -0.06
    POSITIVE LOGITS
    产妇
    0.07
    	L
    0.07
    astic
    0.07
     xl
    0.07
    STRACT
    0.07
    宽度
    0.07
     acute
    0.06
    LABEL
    0.06
    債務
    0.06
    .Linq
    0.06
    Act Density 0.033%

    No Known Activations