INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .addData
    -0.07
     Mai
    -0.07
     втра
    -0.06
     edit
    -0.06
     зміни
    -0.06
    .Utils
    -0.06
     Air
    -0.06
    kj
    -0.06
     انقلاب
    -0.06
     summit
    -0.06
    POSITIVE LOGITS
     Multiple
    0.10
     multiples
    0.10
    Multiple
    0.10
     multiple
    0.09
    Mul
    0.08
    use
    0.07
    multiple
    0.07
     zásob
    0.07
    awe
    0.07
    adele
    0.07
    Act Density 0.010%

    No Known Activations