INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Persian
    -0.07
     hỗ
    -0.06
    ichier
    -0.06
     antenna
    -0.06
     서울
    -0.06
     [](
    -0.06
    .students
    -0.06
    .tif
    -0.06
    έντρο
    -0.06
     café
    -0.06
    POSITIVE LOGITS
     blackjack
    0.15
     roulette
    0.14
     Blackjack
    0.13
     Ronaldo
    0.12
     Roulette
    0.10
    roulette
    0.09
    sterol
    0.08
    olest
    0.07
     Flint
    0.07
    -president
    0.07
    Act Density 0.002%

    No Known Activations