INDEX
    Explanations

    now including code improvements

    New Auto-Interp
    Negative Logits
    ي
    0.57
     damal
    0.54
    Unlike
    0.51
     then
    0.49
    當時
    0.48
    当时
    0.48
    യായിരുന്നു
    0.47
     dann
    0.47
    然后
    0.45
    er
    0.44
    POSITIVE LOGITS
     Теперь
    0.70
     oficialmente
    0.64
    Теперь
    0.55
     теперь
    0.54
    también
    0.52
     lebih
    0.52
     artık
    0.51
    adays
    0.50
     también
    0.49
    이제
    0.49
    Act Density 0.041%

    No Known Activations