INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     doll
    -0.07
    ولی
    -0.07
     Classic
    -0.07
     Aunt
    -0.07
     ag
    -0.07
     pil
    -0.07
    Ž
    -0.07
     LEGO
    -0.07
    HEMA
    -0.07
    Bill
    -0.07
    POSITIVE LOGITS
     cooperating
    0.08
    uins
    0.08
     सद
    0.08
     optimum
    0.08
    forced
    0.08
     распрост
    0.08
    __()↵↵
    0.08
    __;↵↵
    0.08
    ವರಿಗೆ
    0.08
    .discord
    0.08
    Act Density 0.029%

    No Known Activations