INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     зеркало
    -0.08
     amusement
    -0.08
    .ACC
    -0.08
     小说
    -0.08
     करता
    -0.08
    卫生
    -0.07
     Gadget
    -0.07
     મં
    -0.07
    -0.07
     shelves
    -0.07
    POSITIVE LOGITS
    Profession
    0.10
    profession
    0.08
     lain
    0.08
    Thomas
    0.08
    William
    0.08
     debating
    0.07
     dual
    0.07
     consulting
    0.07
    dual
    0.07
    crit
    0.07
    Act Density 0.034%

    No Known Activations