INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     destructive
    -0.07
     vět
    -0.07
    .txt
    -0.07
     feder
    -0.07
     Mass
    -0.07
     Jahr
    -0.07
     eagle
    -0.06
     bw
    -0.06
     governance
    -0.06
     kvinna
    -0.06
    POSITIVE LOGITS
     implant
    0.08
    Vm
    0.08
     implants
    0.07
    lan
    0.07
    окумент
    0.07
    英語
    0.07
     Slam
    0.06
    Ana
    0.06
     implanted
    0.06
    Moment
    0.06
    Act Density 0.006%

    No Known Activations