INDEX
    Explanations

    adjectives describing categories

    New Auto-Interp
    Negative Logits
     seorang
    1.27
     its
    1.22
     একটি
    1.17
    了一個
    1.13
     a
    1.12
     sebuah
    1.12
     Its
    1.11
     Seorang
    1.10
    的一個
    1.07
     was
    1.05
    POSITIVE LOGITS
     những
    1.96
    それぞれ
    1.76
    เหล่านี้
    1.74
     Những
    1.69
    들이
    1.62
    Những
    1.53
     eds
    1.51
     mga
    1.50
    纷纷
    1.49
    ванные
    1.47
    Act Density 0.706%

    No Known Activations