INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    of
    0.86
    ter
    0.83
    on
    0.81
    te
    0.77
    ona
    0.73
    ak
    0.69
    ton
    0.69
    era
    0.69
    ty
    0.68
    s
    0.68
    POSITIVE LOGITS
     σε
    0.94
     في
    0.90
    0.71
    ใน
    0.71
    לי
    0.68
    :
    0.62
     церкви
    0.60
     noviembre
    0.59
     bahis
    0.59
    ير
    0.58
    Act Density 0.092%

    No Known Activations