INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    abase
    -0.08
     γλώ
    -0.07
    prop
    -0.07
    (tableView
    -0.07
    ambi
    -0.07
     erotik
    -0.06
    ξε
    -0.06
    <pair
    -0.06
    avana
    -0.06
    приєм
    -0.06
    POSITIVE LOGITS
    '},↵
    0.08
    tos
    0.07
     Hogwarts
    0.07
    ivers
    0.07
    ٫
    0.06
     Marathon
    0.06
    0.06
    Additionally
    0.06
    Cos
    0.06
     ONLINE
    0.06
    Act Density 0.001%

    No Known Activations