INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     seaweed
    0.41
    いた
    0.41
     znamen
    0.40
    대가
    0.40
    0.40
    0.40
     MIF
    0.40
    כה
    0.38
    する
    0.38
    1
    0.38
    POSITIVE LOGITS
     Valentine
    0.90
    Valentine
    0.82
     valentine
    0.82
     Valentines
    0.78
     valentines
    0.75
    valentine
    0.72
    Valentines
    0.72
     heart
    0.70
     वैलेंटाइन
    0.70
    heart
    0.64
    Act Density 0.000%

    No Known Activations