INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     orig
    -0.08
     mín
    -0.08
     LSU
    -0.08
    व्हा
    -0.07
     Lore
    -0.07
     ontstaan
    -0.07
    -0.07
     fence
    -0.07
     frac
    -0.07
    ப்படும்
    -0.07
    POSITIVE LOGITS
     demeanor
    0.12
     subdued
    0.09
    Enough
    0.09
    下来
    0.09
     شديد
    0.08
     calm
    0.08
     tranquilo
    0.08
     calme
    0.08
    0.08
    0.08
    Act Density 0.007%

    No Known Activations