INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
    -0.06
     nouve
    -0.06
    /******************************************************************************↵
    -0.06
    VALUE
    -0.06
     Ελλάδα
    -0.06
    -0.06
    Emoji
    -0.06
    .Tile
    -0.06
     هواپیم
    -0.06
    POSITIVE LOGITS
    -g
    0.07
     Nor
    0.07
    kur
    0.06
     fool
    0.06
    -o
    0.06
    Backing
    0.06
    :%
    0.06
    -bar
    0.06
    rine
    0.05
    .dk
    0.05
    Act Density 0.037%

    No Known Activations