INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    所谓
    -0.08
     spreekt
    -0.08
    明显
    -0.08
     boule
    -0.08
    -0.08
    /*.
    -0.08
    χολ
    -0.08
    伙伴
    -0.08
     ausdrücklich
    -0.08
    	cluster
    -0.08
    POSITIVE LOGITS
    веч
    0.08
     covered
    0.07
    ерах
    0.07
     factual
    0.07
     essay
    0.07
    Advice
    0.07
     juríd
    0.07
    тай
    0.07
    answer
    0.07
     led
    0.06
    Act Density 0.093%

    No Known Activations