INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     '{{
    -0.07
     dol
    -0.07
     kond
    -0.06
     ho
    -0.06
     vos
    -0.06
     ปร
    -0.06
    рупп
    -0.06
     pod
    -0.06
     descending
    -0.06
     Dol
    -0.06
    POSITIVE LOGITS
    I
    0.12
    .I
    0.11
    i
    0.10
     i
    0.10
    .i
    0.10
     I
    0.10
    .A
    0.09
    	I
    0.09
    -I
    0.09
    /i
    0.09
    Act Density 0.126%

    No Known Activations