INDEX
    Explanations

    verbs introducing explanations

    New Auto-Interp
    Negative Logits
     is
    0.79
    ”،
    0.73
     с
    0.70
     gestalten
    0.67
     ي
    0.67
     مؤرشف
    0.67
    eli
    0.66
     revista
    0.66
     sentido
    0.65
     և
    0.65
    POSITIVE LOGITS
    ו
    0.67
    THE
    0.59
    ש
    0.58
    ONE
    0.57
    長さ
    0.57
    Alpes
    0.56
    USS
    0.55
    装置
    0.55
    なって
    0.54
    Snippet
    0.54
    Act Density 0.655%

    No Known Activations