INDEX
    Explanations

    introduces examples or comparisons

    New Auto-Interp
    Negative Logits
     I
    0.64
     phage
    0.61
     ที่
    0.59
     fungsi
    0.59
     refinery
    0.59
     printer
    0.58
     แต่
    0.58
     casein
    0.58
     W
    0.57
     mengambil
    0.55
    POSITIVE LOGITS
    s
    0.73
    r
    0.65
    t
    0.54
    رك
    0.54
    يه
    0.53
    一道
    0.53
    ى
    0.52
    ્સ
    0.52
    يس
    0.51
    ط
    0.50
    Act Density 0.009%

    No Known Activations