INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     what
    0.48
    o
    0.46
    a
    0.45
     situations
    0.45
     things
    0.45
    ating
    0.44
     or
    0.42
     calories
    0.42
     coward
    0.41
     when
    0.41
    POSITIVE LOGITS
    美國
    0.62
    美国
    0.56
    <unused1130>
    0.55
    台灣
    0.54
    United
    0.53
     United
    0.52
     República
    0.52
     Mỹ
    0.51
    台湾
    0.51
    marshalO
    0.51
    Act Density 0.282%

    No Known Activations