INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     мої
    -0.07
     oversight
    -0.07
     Giám
    -0.07
     Bernard
    -0.07
     kazan
    -0.07
     Cavaliers
    -0.07
     Thanh
    -0.07
     seine
    -0.07
     ста
    -0.06
    -0.06
    POSITIVE LOGITS
     ways
    0.06
     lenght
    0.06
    0.06
     else
    0.05
    ündeki
    0.05
     Newest
    0.05
    けど
    0.05
     slam
    0.05
    .'.$
    0.05
    agog
    0.05
    Act Density 0.036%

    No Known Activations