INDEX
    Explanations

    equations and scaling

    New Auto-Interp
    Negative Logits
    -0.07
    사무
    -0.07
    来回
    -0.06
     telefon
    -0.06
    计算机
    -0.06
    gist
    -0.06
    нат
    -0.06
     sends
    -0.06
     wood
    -0.06
     которая
    -0.06
    POSITIVE LOGITS
    									
    0.07
    "Oh
    0.07
    勘探
    0.06
    她是
    0.06
    													
    0.06
     Muslims
    0.06
    0.06
     Proper
    0.06
    0.06
    ????
    0.06
    Act Density 0.005%

    No Known Activations