INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     lên
    -0.08
     tồn
    -0.07
     west
    -0.07
    men
    -0.07
    West
    -0.07
     jsme
    -0.07
    ;;;;;;
    -0.07
     thôn
    -0.06
     wor
    -0.06
     شورای
    -0.06
    POSITIVE LOGITS
     if
    0.23
     If
    0.20
    If
    0.19
    	if
    0.19
    if
    0.16
     IF
    0.16
    IF
    0.15
    —if
    0.14
    (if
    0.13
    “If
    0.13
    Act Density 0.206%

    No Known Activations