INDEX
    Explanations

    αλλά να πρέπει

    New Auto-Interp
    Negative Logits
    𝚓
    0.74
     dinding
    0.73
     nDims
    0.72
     honti
    0.71
     namik
    0.71
     kiles
    0.70
     dvara
    0.70
     simonsen
    0.70
    vertices
    0.69
     sebenarnya
    0.69
    POSITIVE LOGITS
     ο
    0.91
     το
    0.90
     με
    0.88
     τα
    0.85
     τις
    0.85
     πα
    0.84
     προ
    0.84
     και
    0.84
     έ
    0.83
     οι
    0.80
    Act Density 0.002%

    No Known Activations