INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     plats
    -0.09
     Wave
    -0.08
    Wave
    -0.08
     clasificación
    -0.08
     plat
    -0.08
     wave
    -0.07
    _wave
    -0.07
     Colour
    -0.07
    Plat
    -0.07
     Mesa
    -0.07
    POSITIVE LOGITS
     Burr
    0.09
    minus
    0.08
    _backward
    0.08
    0.07
     Ruhr
    0.07
    ż
    0.07
    യ്
    0.07
    യ്ക്ക
    0.07
    ож
    0.07
    Stu
    0.07
    Act Density 0.000%

    No Known Activations