INDEX
Explanations
phrases indicating existence or presence
existence or lack thereof
New Auto-Interp
Negative Logits
Milán
-0.47
myſelf
-0.46
Jefus
-0.44
Sanjay
-0.43
Monfieur
-0.43
himſelf
-0.42
Scaling
-0.42
predictions
-0.42
scaling
-0.41
TextNode
-0.41
POSITIVE LOGITS
がある
1.09
ある
1.04
ことがある
0.90
があり
0.88
있
0.88
exists
0.88
もある
0.86
があります
0.84
はある
0.83
あり
0.82
Activations Density 0.005%