INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    b
    0.52
    m
    0.51
    0.49
    et
    0.47
     be
    0.46
    ي
    0.45
    d
    0.41
     at
    0.40
    w
    0.40
    ت
    0.40
    POSITIVE LOGITS
    lycer
    0.36
     شما
    0.33
    Исход
    0.32
    Становништво
    0.31
     proporcionan
    0.31
     supremacist
    0.30
    arian
    0.30
    0.30
    에서의
    0.30
    вається
    0.30
    Act Density 0.365%

    No Known Activations