INDEX
    Explanations

    phrases indicating existence or presence

    existence or lack thereof

    New Auto-Interp
    Negative Logits
     Milán
    -0.47
     myſelf
    -0.46
     Jefus
    -0.44
     Sanjay
    -0.43
     Monfieur
    -0.43
     himſelf
    -0.42
    Scaling
    -0.42
    predictions
    -0.42
    scaling
    -0.41
    TextNode
    -0.41
    POSITIVE LOGITS
    がある
    1.09
    ある
    1.04
    ことがある
    0.90
    があり
    0.88
     있
    0.88
     exists
    0.88
    もある
    0.86
    があります
    0.84
    はある
    0.83
    あり
    0.82
    Act Density 0.005%

    No Known Activations