INDEX
    Explanations

    positive adjectives

    New Auto-Interp
    Negative Logits
     посл
    -0.06
    ו
    -0.06
    scalar
    -0.06
    baugh
    -0.06
    Fixture
    -0.06
     mourning
    -0.06
    '^
    -0.06
    設定
    -0.06
    ας
    -0.06
     contrasting
    -0.06
    POSITIVE LOGITS
    _MT
    0.07
    ,看
    0.07
     Emmy
    0.06
     import
    0.06
     ****************
    0.06
    0.06
     doporuč
    0.06
     Coordinate
    0.06
     oversee
    0.06
    leta
    0.06
    Act Density 0.090%

    No Known Activations