INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Dtype
    -0.06
     north
    -0.06
    %;
    -0.06
     характеристи
    -0.06
    (permission
    -0.06
    FontSize
    -0.06
    	h
    -0.06
    سمبر
    -0.06
    _formats
    -0.06
     poru
    -0.06
    POSITIVE LOGITS
     Puppy
    0.07
     Television
    0.07
    0.07
    จน
    0.06
     »
    0.06
    :↵
    0.06
     поль
    0.06
     adore
    0.06
    285
    0.06
    ']['
    0.06
    Act Density 0.002%

    No Known Activations