INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    	type
    -0.07
     Stud
    -0.06
     بیم
    -0.06
     lần
    -0.06
    amient
    -0.06
    illustr
    -0.06
     Responsibilities
    -0.06
    Lng
    -0.06
     диамет
    -0.06
    สล
    -0.05
    POSITIVE LOGITS
    xia
    0.07
     canal
    0.07
     cx
    0.07
     Uni
    0.07
     ledge
    0.06
    shi
    0.06
     nabízí
    0.06
     modelo
    0.06
    (da
    0.06
     Emily
    0.06
    Act Density 0.001%

    No Known Activations