INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    flip
    -0.06
    	state
    -0.06
    ictionary
    -0.06
     nombre
    -0.06
     زمین
    -0.06
    overrides
    -0.06
     маши
    -0.06
    devil
    -0.06
    	y
    -0.06
    fbe
    -0.06
    POSITIVE LOGITS
     Jerusalem
    0.08
     Держав
    0.07
     MICRO
    0.06
     utrecht
    0.06
     разработ
    0.06
     unquestion
    0.06
     تح
    0.06
     analytical
    0.06
    	TR
    0.06
    0.06
    Act Density 0.046%

    No Known Activations