INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    puede
    -0.94
     dichter
    -0.85
    mientras
    -0.83
     quotidi
    -0.82
    Kirche
    -0.82
    Puede
    -0.82
     enkel
    -0.81
    -0.81
    faster
    -0.81
     kıs
    -0.81
    POSITIVE LOGITS
     y
    1.70
    y
    1.52
     Y
    1.50
     x
    1.46
    Y
    1.41
     X
    1.27
    x
    1.13
     Z
    1.09
    1.01
     z
    0.95
    Act Density 0.070%

    No Known Activations