INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     naz
    0.72
     Naz
    0.65
    Naz
    0.60
    naz
    0.57
    Nazi
    0.48
     названием
    0.47
     Nazis
    0.47
     Nazi
    0.46
     Nazareth
    0.46
     nascetur
    0.45
    POSITIVE LOGITS
     im
    0.90
     им
    0.87
     ім
    0.84
    Im
    0.80
     імені
    0.76
     имени
    0.70
     Im
    0.70
     ими
    0.67
    мя
    0.64
    imens
    0.64
    Act Density 0.006%

    No Known Activations