INDEX
    Explanations

    math calculations

    New Auto-Interp
    Negative Logits
    Via
    -0.08
     Moo
    -0.07
     decid
    -0.07
    tran
    -0.07
     Pim
    -0.07
    note
    -0.07
    -Me
    -0.07
     wygląda
    -0.07
    Nota
    -0.07
    Pid
    -0.07
    POSITIVE LOGITS
     Actual
    0.08
    ої
    0.08
    厨房
    0.07
    adox
    0.07
    koz
    0.07
     результата
    0.07
     khi
    0.07
     sung
    0.07
    ुले
    0.07
    ोग
    0.07
    Act Density 0.063%

    No Known Activations