INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     tore
    -0.08
    pọ
    -0.08
     torn
    -0.08
     overhaul
    -0.08
    bullet
    -0.08
     swallow
    -0.07
     abuse
    -0.07
    clipse
    -0.07
    aned
    -0.07
     appealed
    -0.07
    POSITIVE LOGITS
     ähn
    0.12
     ähnliche
    0.12
     похож
    0.12
     مشابه
    0.11
     similaires
    0.10
    охожие
    0.10
     समान
    0.10
     similares
    0.10
    类似
    0.10
    0.10
    Act Density 0.022%

    No Known Activations