INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    管理
    -0.09
    Phy
    -0.08
     کن
    -0.08
     ڪن
    -0.08
    ല്
    -0.07
    lec
    -0.07
     lifespan
    -0.07
     شخصیت
    -0.07
    -0.07
    neiden
    -0.07
    POSITIVE LOGITS
     zarówno
    0.10
    either
    0.09
     either
    0.09
    :↵↵
    0.09
     joko
    0.08
     również
    0.08
     firstly
    0.08
    -hal
    0.08
     一个
    0.08
     entweder
    0.08
    Act Density 0.052%

    No Known Activations