INDEX
    Explanations

    numbers followed by units

    New Auto-Interp
    Negative Logits
    ان
    0.40
    ش
    0.39
    وری
    0.38
    ائی
    0.38
    ین
    0.37
    ری
    0.37
    لی
    0.37
    ایت
    0.37
    اسی
    0.37
    سی
    0.36
    POSITIVE LOGITS
    stru
    0.32
    自分
    0.29
    }$
    0.27
     bell
    0.27
     spacings
    0.27
    ever
    0.27
     densities
    0.27
     )
    0.27
    arding
    0.27
    GP
    0.27
    Act Density 0.039%

    No Known Activations