INDEX
    Explanations

    Inflammatory

    New Auto-Interp
    Negative Logits
    �试
    -0.07
    \u
    -0.07
    partition
    -0.06
     UIT
    -0.06
     Initialization
    -0.06
     Bethesda
    -0.06
    πη
    -0.06
    368
    -0.06
     bunun
    -0.06
    ウン
    -0.06
    POSITIVE LOGITS
     inflammatory
    0.13
    flammatory
    0.10
     d
    0.08
    0.07
     JLabel
    0.07
    yr
    0.07
    .print
    0.07
     dues
    0.06
    .float
    0.06
    /end
    0.06
    Act Density 0.003%

    No Known Activations