INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     الد
    -0.07
     البر
    -0.07
    erald
    -0.07
    กราคม
    -0.07
     Atari
    -0.07
     ایشان
    -0.06
    (embed
    -0.06
    واره
    -0.06
     sama
    -0.06
    .PLAIN
    -0.06
    POSITIVE LOGITS
    atchet
    0.07
     acab
    0.06
    0.06
     bluff
    0.06
    	UPROPERTY
    0.06
    lesc
    0.06
    0.06
    uff
    0.06
     exemplo
    0.06
    .News
    0.06
    Act Density 0.005%

    No Known Activations