INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Electric
    -0.09
     electric
    -0.07
    Electric
    -0.07
     opener
    -0.07
     accessory
    -0.07
     الرا
    -0.07
     ouvre
    -0.07
     Kamera
    -0.07
    -0.07
    een
    -0.07
    POSITIVE LOGITS
     informe
    0.09
    0.09
     vowel
    0.08
     approximation
    0.08
     الشكل
    0.08
    ansing
    0.08
     supplementation
    0.07
     kiwi
    0.07
     lir
    0.07
    への
    0.07
    Act Density 0.003%

    No Known Activations