INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ’al
    -0.08
     forb
    -0.08
     Baldwin
    -0.08
    الية
    -0.07
    	al
    -0.07
     ross
    -0.07
     ford
    -0.07
     biv
    -0.07
     aggi
    -0.07
    والو
    -0.07
    POSITIVE LOGITS
    0.08
     pomocą
    0.08
     предел
    0.08
    0.08
    wechsel
    0.08
     hinweg
    0.07
    آمد
    0.07
    0.07
     cultivate
    0.07
    0.07
    Act Density 0.007%

    No Known Activations