INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    $conn
    -0.07
     بلکه
    -0.07
     میدان
    -0.06
     policym
    -0.06
     Attribution
    -0.06
    ization
    -0.06
     gcd
    -0.06
    parity
    -0.06
    Px
    -0.06
     ($(
    -0.06
    POSITIVE LOGITS
     Ver
    0.27
    Ver
    0.25
     VER
    0.18
     ver
    0.17
    ver
    0.15
    -ver
    0.15
    .ver
    0.14
    VER
    0.14
    _ver
    0.14
    _VER
    0.14
    Act Density 0.012%

    No Known Activations