INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     infinity
    -0.08
    gwụ
    -0.08
     صارف
    -0.08
     жил
    -0.08
    (vertices
    -0.08
     גל
    -0.08
     قم
    -0.08
    _STAR
    -0.08
    xes
    -0.08
    /or
    -0.08
    POSITIVE LOGITS
    0.10
    0.09
    Cath
    0.08
     leichter
    0.08
    满意
    0.08
     subcon
    0.08
     легче
    0.08
    安心
    0.08
     wary
    0.08
     expectation
    0.08
    Act Density 0.071%

    No Known Activations