INDEX
    Explanations

    Scandinavian languages, opinions

    New Auto-Interp
    Negative Logits
    omerang
    0.78
    inued
    0.78
    機種
    0.78
    0.78
     ವರ್ಗ
    0.77
    urende
    0.76
    itié
    0.75
     impegno
    0.75
     മുതല്‍
    0.74
    <unused413>
    0.74
    POSITIVE LOGITS
     tror
    1.09
     tycker
    0.96
     har
    0.89
    Har
    0.88
     synes
    0.87
    har
    0.86
     mener
    0.86
     men
    0.84
     думаю
    0.82
     Har
    0.82
    Act Density 0.002%

    No Known Activations