INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     приобрет
    -0.06
    ston
    -0.06
    ustria
    -0.06
     republiky
    -0.06
    >',↵
    -0.06
     Corporation
    -0.06
    IZES
    -0.06
     Philadelphia
    -0.06
     اصفهان
    -0.06
    purpose
    -0.06
    POSITIVE LOGITS
     الأك
    0.08
    0.07
     Modeling
    0.07
    avg
    0.07
    	Py
    0.07
     Fahr
    0.06
     Armor
    0.06
    imer
    0.06
    imální
    0.06
     Bee
    0.06
    Act Density 0.009%

    No Known Activations