INDEX
    Explanations

    name definitions

    New Auto-Interp
    Negative Logits
    -0.07
    אוניברסיטת
    -0.06
    新建
    -0.06
    触れ
    -0.06
    говор
    -0.06
    ישה
    -0.06
    -0.06
     cette
    -0.06
    唯一
    -0.06
     cowboy
    -0.06
    POSITIVE LOGITS
     drib
    0.07
    0.07
    ,y
    0.07
    0.07
    mute
    0.07
    0.06
     Depths
    0.06
    [root
    0.06
    .Equals
    0.06
    0.06
    Act Density 0.031%

    No Known Activations