INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    WN
    -0.07
     Chef
    -0.07
    -0.07
     Rear
    -0.07
    .First
    -0.07
     TL
    -0.07
    -0.07
     alan
    -0.07
     رب
    -0.07
    (tf
    -0.07
    POSITIVE LOGITS
     instruments
    0.07
     quantities
    0.07
    	Config
    0.07
    -category
    0.07
    إقامة
    0.07
     knives
    0.07
    צפייה
    0.06
    奇葩
    0.06
    stąpi
    0.06
     судеб
    0.06
    Act Density 0.004%

    No Known Activations