INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     exaggerated
    -0.09
     gillar
    -0.08
     marrow
    -0.08
     offic
    -0.08
     जोर
    -0.07
    ‌ها
    -0.07
     hugged
    -0.07
    ώνα
    -0.07
    าต
    -0.07
    argest
    -0.07
    POSITIVE LOGITS
     sínt
    0.08
     peroxide
    0.07
    /by
    0.07
    subjects
    0.07
     કેમ
    0.07
    ,例如
    0.07
     SOUR
    0.07
    phäre
    0.07
     vier
    0.07
     તે
    0.07
    Act Density 0.012%

    No Known Activations