INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    朝鮮
    0.49
    朝鲜
    0.43
     Spanish
    0.43
     कोरिया
    0.42
     러시아
    0.42
    Korea
    0.39
     испан
    0.39
     Korean
    0.39
     중국
    0.39
    $_
    0.38
    POSITIVE LOGITS
     UK
    1.88
    UK
    1.69
     Royaume
    1.40
     Великобрита
    1.38
     Великобритании
    1.35
    英国
    1.31
     uk
    1.24
    英國
    1.23
     Großbritannien
    1.23
     ब्रिटेन
    1.22
    Act Density 0.028%

    No Known Activations