INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Uph
    -0.08
    ponge
    -0.07
     unwilling
    -0.07
     dbs
    -0.07
    ver
    -0.07
     بتاريخ
    -0.07
     קופ
    -0.07
    )>
    -0.07
     vd
    -0.07
    安宁
    -0.07
    POSITIVE LOGITS
     geleceği
    0.08
     chrom
    0.08
    (single
    0.06
    档次
    0.06
     Chrom
    0.06
     Roberts
    0.06
    ochrome
    0.06
    笑容
    0.06
    0.06
    的意义
    0.06
    Act Density 0.006%

    No Known Activations