INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    rowing
    -0.08
     Pong
    -0.08
     Swimming
    -0.08
     Katze
    -0.08
     Sailing
    -0.08
     mahimong
    -0.08
     Elliot
    -0.08
     Wird
    -0.07
     Dancing
    -0.07
     paseo
    -0.07
    POSITIVE LOGITS
     unethical
    0.10
     ilegal
    0.09
     unnecessary
    0.08
     unlawful
    0.08
     การ
    0.08
    0.08
    268
    0.08
    การพนัน
    0.08
     ilyen
    0.08
     harmful
    0.08
    Act Density 0.004%

    No Known Activations