INDEX
    Explanations

    single digits

    New Auto-Interp
    Negative Logits
    .am
    -0.09
    -am
    -0.08
    mort
    -0.08
     rotating
    -0.08
    .rot
    -0.08
     byt
    -0.08
    rot
    -0.07
     EM
    -0.07
    etto
    -0.07
    atalog
    -0.07
    POSITIVE LOGITS
     commandments
    0.08
     ощущения
    0.08
     שום
    0.08
     сда
    0.08
    لايا
    0.08
     परीक्षा
    0.08
     säga
    0.08
     цив
    0.08
    ตำ
    0.08
     केही
    0.08
    Act Density 0.044%

    No Known Activations