INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .xxx
    -0.09
     kvinna
    -0.07
     زن
    -0.07
    erse
    -0.07
    ưng
    -0.07
    owa
    -0.07
    LAND
    -0.07
     ліс
    -0.06
    -0.06
    Think
    -0.06
    POSITIVE LOGITS
     catalyst
    0.06
    hoot
    0.06
    ailles
    0.06
    [unit
    0.06
    غ
    0.06
    をする
    0.06
    يز
    0.06
     OVERRIDE
    0.06
    }>
    ↵
    0.06
    _VAR
    0.06
    Act Density 0.002%

    No Known Activations