INDEX
    Explanations

    exercise instructions

    New Auto-Interp
    Negative Logits
    ర్
    -0.08
    లేదు
    -0.08
    十大
    -0.08
     trolls
    -0.08
    ار
    -0.08
    -small
    -0.08
     troll
    -0.08
    :hover
    -0.07
    _hover
    -0.07
    皇冠
    -0.07
    POSITIVE LOGITS
     прем
    0.07
    ിക്കുക
    0.07
     chắn
    0.07
     victimes
    0.07
    ("\\
    0.07
    avigator
    0.07
     खिलाफ
    0.07
     magen
    0.07
     പങ്ക
    0.07
    0.07
    Act Density 0.005%

    No Known Activations