INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     consultancy
    -0.08
     οι
    -0.08
     flaws
    -0.08
     действ
    -0.07
    olari
    -0.07
     оз
    -0.07
     gyro
    -0.07
     bedoeld
    -0.07
     wu
    -0.07
    ystem
    -0.07
    POSITIVE LOGITS
     него
    0.10
     diesen
    0.08
    Kommun
    0.08
    setzung
    0.08
     něj
    0.08
    Sele
    0.08
     beraber
    0.08
     survived
    0.08
     npm
    0.07
     Contents
    0.07
    Act Density 0.003%

    No Known Activations