INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    ことは
    -0.08
    >c
    -0.08
    рі
    -0.07
    -0.07
    _dev
    -0.07
    -0.07
    >p
    -0.07
     an
    -0.07
    这一
    -0.07
    POSITIVE LOGITS
     kinds
    0.09
     types
    0.09
     kind
    0.08
     type
    0.08
     Type
    0.07
     sort
    0.06
     Kind
    0.06
     KIND
    0.06
     Soldiers
    0.06
    .FromSeconds
    0.06
    Act Density 0.036%

    No Known Activations