INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     เก
    -0.08
     Feel
    -0.07
     labels
    -0.07
    unnel
    -0.06
     Burk
    -0.06
    Acceleration
    -0.06
    效果
    -0.06
    彼女
    -0.06
     Cyr
    -0.06
    -0.06
    POSITIVE LOGITS
     todas
    0.10
    todo
    0.09
     tutte
    0.08
     toutes
    0.08
    every
    0.07
     bewild
    0.07
    %%%%%%%%%%%%%%%%
    0.07
     Tut
    0.07
    705
    0.07
    另外
    0.07
    Act Density 0.014%

    No Known Activations