INDEX
    Explanations

    programming code and data formatting

    New Auto-Interp
    Negative Logits
     are
    0.66
    ا
    0.66
    dır
    0.60
     êtes
    0.58
     tử
    0.57
    اً
    0.57
    كيف
    0.56
    ка
    0.54
    0.54
     фаразы
    0.53
    POSITIVE LOGITS
    B
    0.62
    J
    0.58
     B
    0.56
    -
    0.50
    K
    0.50
    F
    0.49
     K
    0.49
     la
    0.49
     หลังจาก
    0.48
    H
    0.47
    Act Density 0.660%

    No Known Activations