INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     BEN
    -0.09
    Sam
    -0.07
    -fat
    -0.07
     знаком
    -0.06
    ností
    -0.06
     jim
    -0.06
    -0.06
     detriment
    -0.06
    xCA
    -0.06
    itele
    -0.06
    POSITIVE LOGITS
     Основ
    0.11
     основ
    0.09
    coordinates
    0.08
     βασ
    0.08
    Основ
    0.08
    0.08
     Haupt
    0.08
    _warnings
    0.07
     headline
    0.07
     Leading
    0.07
    Act Density 0.011%

    No Known Activations