INDEX
    Explanations

    common words

    New Auto-Interp
    Negative Logits
     με
    -0.10
     όλα
    -0.09
     Με
    -0.09
     τόσο
    -0.09
     Ideally
    -0.09
     λειτουργ
    -0.09
     δεδο
    -0.09
     Ελλά
    -0.09
     φο
    -0.09
     ";"
    -0.09
    POSITIVE LOGITS
     humorous
    0.09
    196
    0.09
    Pl
    0.09
    Animated
    0.09
    0.08
    Captain
    0.08
    pl
    0.08
     famous
    0.08
    Text
    0.08
    ?!
    0.08
    Act Density 0.033%

    No Known Activations