INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     their
    -1.76
     our
    -1.46
     what
    -1.43
    をしました
    -1.42
    お疲れ
    -1.42
     umożli
    -1.41
     biztos
    -1.40
    久し
    -1.38
     всегда
    -1.37
    来週
    -1.34
    POSITIVE LOGITS
     to
    6.41
     obyvateľov
    1.58
     būti
    1.44
     ľudí
    1.41
     να
    1.39
     kiek
    1.38
    1.31
     årene
    1.30
     naudoti
    1.29
    cessed
    1.28
    Act Density 0.090%

    No Known Activations