INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     hunger
    -0.09
    เลือ
    -0.09
     friction
    -0.08
     lunch
    -0.08
    γραμμα
    -0.08
     calories
    -0.08
     história
    -0.08
     història
    -0.08
     gasto
    -0.08
     carve
    -0.08
    POSITIVE LOGITS
    extras
    0.09
    avr
    0.08
    回复
    0.08
     लगे
    0.08
    acor
    0.08
    ansing
    0.07
    Mist
    0.07
    回应
    0.07
     demor
    0.07
    上述
    0.07
    Act Density 0.005%

    No Known Activations