INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     faszin
    -0.08
     limpia
    -0.08
     ניק
    -0.07
     incumb
    -0.07
     ubwo
    -0.07
    čine
    -0.07
    動漫
    -0.07
     Pixar
    -0.07
    -0.07
    -0.07
    POSITIVE LOGITS
     Cla
    0.09
    Cla
    0.09
    قول
    0.08
     Oral
    0.07
    لايا
    0.07
     Isa
    0.07
     testimony
    0.07
     calories
    0.07
    0.07
     sanct
    0.07
    Act Density 0.001%

    No Known Activations