INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Facing
    -0.08
     ن
    -0.08
     الن
    -0.07
     الشخصية
    -0.07
     tránh
    -0.07
    -overlay
    -0.07
    .instance
    -0.07
    فة
    -0.07
     الصحيح
    -0.06
    -0.06
    POSITIVE LOGITS
    0.07
    vod
    0.07
    新品
    0.07
    _clear
    0.07
    sembl
    0.06
    sembled
    0.06
    coded
    0.06
    _definitions
    0.06
    metal
    0.06
     magistrate
    0.06
    Act Density 0.020%

    No Known Activations