INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    warnings
    -0.07
     Dread
    -0.07
     dread
    -0.07
    ʜ
    -0.07
     granted
    -0.07
    -0.07
    -labelled
    -0.07
    -0.06
    abaj
    -0.06
    -0.06
    POSITIVE LOGITS
     ration
    0.07
    ///
    0.07
     תמיד
    0.07
    因地制宜
    0.07
     nicely
    0.07
    终于
    0.07
    几乎是
    0.07
     ValueType
    0.07
    摩擦
    0.07
    ไหว
    0.06
    Act Density 0.047%

    No Known Activations