INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     בעולם
    -0.10
     cuisines
    -0.09
    -0.09
     tended
    -0.09
     tends
    -0.08
     உலக
    -0.08
     eser
    -0.08
     tend
    -0.08
    -0.08
     世界
    -0.08
    POSITIVE LOGITS
     आग्रह
    0.08
    Consent
    0.07
    Vill
    0.07
    Gate
    0.07
    (Request
    0.07
    0.07
    Tape
    0.07
     bastard
    0.07
    Bus
    0.07
    оговор
    0.07
    Act Density 0.001%

    No Known Activations