INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     gera
    -0.09
    ese
    -0.08
    -0.08
    Tu
    -0.07
    ake
    -0.07
     Федерации
    -0.07
     Mere
    -0.07
     Milford
    -0.07
    -0.07
    boards
    -0.07
    POSITIVE LOGITS
     confused
    0.09
     Haha
    0.08
     surprised
    0.08
     puzzled
    0.08
     Leuten
    0.08
     Jeux
    0.08
     *)↵
    0.07
     rotten
    0.07
    ètes
    0.07
     Spaß
    0.07
    Act Density 0.013%

    No Known Activations