INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    wend
    -0.08
    CAR
    -0.08
     надеж
    -0.08
     Leicester
    -0.08
    oooo
    -0.08
    λων
    -0.07
    Delhi
    -0.07
    ーワ
    -0.07
    Ν
    -0.07
    inä
    -0.07
    POSITIVE LOGITS
    0.12
    Boss
    0.10
     Bib
    0.10
     Boss
    0.09
     haem
    0.09
    菠菜
    0.09
    0.09
    0.09
    0.09
    0.09
    Act Density 0.002%

    No Known Activations