INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     जिसने
    -0.09
     خيار
    -0.08
     ktoś
    -0.08
     parmi
    -0.08
     વિક
    -0.07
     प्राकृतिक
    -0.07
     mutum
    -0.07
     aquellas
    -0.07
     changer
    -0.07
    atero
    -0.07
    POSITIVE LOGITS
     heavily
    0.09
    unused
    0.08
    .used
    0.08
     ниг
    0.08
    Unused
    0.08
     основном
    0.08
    jade
    0.08
     benötigen
    0.08
     голову
    0.08
    PI
    0.08
    Act Density 0.030%

    No Known Activations