INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Beaumont
    -0.08
    -0.08
     pace
    -0.08
    -0.08
    manha
    -0.08
    -0.07
     dean
    -0.07
     हमेशा
    -0.07
     khe
    -0.07
    θεση
    -0.07
    POSITIVE LOGITS
     yaitu
    0.09
     yakni
    0.08
    756
    0.08
     anw
    0.08
     stump
    0.07
     LIV
    0.07
     ПРО
    0.07
     sigmoid
    0.07
     یعنی
    0.07
    cio
    0.07
    Act Density 0.030%

    No Known Activations