INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     WOM
    -0.07
    -0.07
     человека
    -0.07
     Kow
    -0.07
     Baker
    -0.07
    estinal
    -0.07
    lico
    -0.07
     прид
    -0.07
    突出
    -0.07
     sly
    -0.07
    POSITIVE LOGITS
    .detach
    0.08
    Pra
    0.07
    Comm
    0.07
     recorded
    0.07
     കഴിഞ്ഞ
    0.07
    .annotation
    0.07
    .capture
    0.07
     Comm
    0.07
    RGB
    0.07
     امکان
    0.07
    Act Density 0.003%

    No Known Activations