INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.06
     Rosie
    -0.06
     zel
    -0.06
     Lazar
    -0.06
    hiro
    -0.06
     CCS
    -0.06
    ARAM
    -0.06
     Kirst
    -0.06
     Bez
    -0.06
    -0.06
    POSITIVE LOGITS
     pun
    0.10
    un
    0.08
     Pun
    0.07
     contend
    0.07
    пат
    0.07
    ancellor
    0.07
    0.07
    Private
    0.07
    アルバ
    0.07
    wind
    0.07
    Act Density 0.002%

    No Known Activations