INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ..↵↵↵↵
    -0.07
     массив
    -0.07
     avoir
    -0.07
    vem
    -0.07
     Camden
    -0.06
    tgt
    -0.06
    vk
    -0.06
     foliage
    -0.06
     ubyt
    -0.06
     Herc
    -0.06
    POSITIVE LOGITS
     Haus
    0.08
    mann
    0.08
     Nazi
    0.07
    Changed
    0.07
     Kol
    0.07
     Klein
    0.07
     Baum
    0.07
     Reich
    0.07
     Bundes
    0.07
     Mathematical
    0.07
    Act Density 0.098%

    No Known Activations