![图像处理中的数学修炼(第2版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/451/34061451/b_34061451.jpg)
2.2 凸函数与詹森不等式
函数的凹凸性在求解最优化问题时是一种非常有利的工具。不仅在图像处理,甚至在机器学习中也常被用到。例如,在EM算法和支持向量机的推导中都用到了凸函数的性质。与函数的凹凸性紧密相连的是著名的詹森不等式。本书后续的许多定理都可以利用詹森不等式加以证明。
2.2.1 凸函数的概念
凸函数是一个定义在某个向量空间的凸子集C(区间)上的实值函数f,而且对于凸子集C中任意两个向量p1和p2,以及存在任意有理数θ∈(0,1),则有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P81_28368.jpg?sign=1738790343-9lX9r28aZs7q9kxcaIqCUf0SWHR5PDdG-0-0eca34df5caaf795a260c008a3699b6d)
如果f连续,那么θ可以改为(0,1)中的实数。若这里的凸子集θ即某个区间,那么f就为定义在该区间上的函数,p1和p2则为该区间上的任意两点。
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_10076.jpg?sign=1738790343-LbiM66OBw5CDrNX0uJY4YRvCt5TnjcMc-0-f60adb66d56c910453f2c18b7618afc7)
图2-1 凸函数示意图
图2-1为一个凸函数示意图,结合图形,不难分析在凸函数的定义式中,θp2+(1-θ)p1可以看作是p1和p2的加权平均,因此fθp2+(1-θ)p1[
]是位于函数f曲线上介于p1和p2区间内的一点。而θf(p2)+(1-θ)f(p1)则是f(p1)和f(p2)的加权平均,也就是以f(p1)和f(p2)为端点的一条直线段上的一点,或者也可以从直线的两点式方程考查它。已知点(x1,y1)和(x2,y2),则可以确定一条直线的方程为
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28370.jpg?sign=1738790343-96BgVFO7t4snSy3cTOvOHAGlDI438J7U-0-afd9430166ab7019907699a48db45ba5)
现在已知直线上的两个点为[p1,f(p1)]和[p2,f(p2)],于是便可根据上式写出直线方程,即
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28372.jpg?sign=1738790343-x57ILHZ2X6p9rUwiV4yiFGslaiXqpMcF-0-da2133bcd4167a1de2ceb2f62346dee1)
然后又知直线上一点的横坐标为θp2+(1-θ)p1,代入上式便可求得其对应的纵坐标为θf(p2)+(1-θ)f(p1)。
如果f是定义在一个开区间(a,b)上的可微实值函数,那么f是一个凸函数的充要条件就是f′为定义在(a,b)上的一个单调递增的函数。
现在证明这个结论。首先证明充分性。假设f′在区间(a,b)上是单调递增的,证明f是一个凸函数。再假设p1<p2<p3是区间(a,b)上的三个点,根据拉格朗日中值定理,在(p1,p2)内至少存在一点ξ1,使得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_10103.jpg?sign=1738790343-OcA6kEQAP6wle1RBOvdhS2YRIF1rNAnd-0-71d7b6801218befb9aef40f71565392e)
同理,在(p2,p3)内至少存在一点ξ2,使得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28379.jpg?sign=1738790343-dbMFHHCDhhbx77IDPW5If30DEOfIqERp-0-9d119a8994e9200ee29c5bca088a7d0d)
又因为f′是单调递增的,所以f′(ξ1)≤f′(ξ2),即
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28381.jpg?sign=1738790343-qPl8TjLNejlRcVNPbU0OkCfa89JcleFo-0-e3ffbb4911ed9eac00aa2f296cd0104e)
因为p2∈(p1,p3),所以必然有一个λ∈(0,1)使得p2=λp1+(1-λ)p3。进而有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28383.jpg?sign=1738790343-sLPMhAIHK46Sd2Nh0USU7TB3yzuz3DNz-0-9cb9f2e4720f1f5df8453dea7c0098cc)
这其实已经得到了想要的结论。但是最初如果假设p1<p3,这在原命题中是不存在的。为了去除这个条件,还需要再讨论p1>p3的情况。但基于已经得到的结论,这方面的讨论是非常容易的。此时,类似地可以得到
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28389.jpg?sign=1738790343-F3r3fX42qfM4PAPnBn1rTrrpBAaPZ3hq-0-cd6c36aa90823e4a686b88cdbec0b28a)
这时可以令α=1-λ,于是便会得到
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28391.jpg?sign=1738790343-NIhcgGjMUDKB6omVnzlEgzzc7X6RsOMq-0-d12e8271e35469638e7e999eeabbf499)
于是,当f′是一个单调递增函数时,f就是一个凸函数的结论得证。
现在来证明必要性。由f是一个凸函数出发来证明f′是一个单调递增函数。
方法一 假设f是定义在(a,b)上的凸函数。那么根据凸函数的定义,可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28393.jpg?sign=1738790343-tn0V5JR6uKm24CvfTRQGAbUam0eTz9BA-0-3556037abc182eadd9a6ba9653fd457a)
其中,p1和p3为区间(a,b)上的任意两点,且p1<p3。对于p1和p3之间的任意一点p2,将之前的求证过程从后向前推导,便会得到结论
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28395.jpg?sign=1738790343-qKULV5RGWIPd6Nrl5saL8D8sadFRygVJ-0-6d4aae8c60b228507fe2d0afe426f135)
根据导数的定义可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28397.jpg?sign=1738790343-bId706f01TJa4fF8VrVKaJuVY0JKqJ4u-0-64d989c9a4902d2145ebdbf24a752443)
因此可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28398.jpg?sign=1738790343-wwrb04rYUPrt2NXdVZSKEKIW7W25r1Di-0-917c2d2d0a330bfc710dbe6bb7ef07f8)
即f′(p1)≤f′(p3),所以f′是单调递增的,必要性得证。
方法二 假设f是定义在(a,b)上的凸函数。那么根据凸函数的定义,可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28400.jpg?sign=1738790343-dg2W8IwgVRjtjSlb8H67Q5rRcr11nDAW-0-560f30dba9bd6cdc10e4948d1f08f0d2)
其中,p1和p2为区间(a,b)上的任意两点,且0≤λ≤1。
对于给定的a<p1<p2<b,定义函数
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28402.jpg?sign=1738790343-ekCpwTReHbT1GlXn2tGcBnzjzPmVjyD3-0-d62d05c17181dfa215ba72f0f317d071)
显然在[0,1]上有g(λ)≤0,而且g(0)=g(1)=0。可见函数g(λ)在两个端点处取得最大值,也就是说g(λ)在大于0的某个子区间内是递减的,而在小于1的某个子区间内则是递增的,即g′(0)≤0≤g′(1)。再根据链式求导法则可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28407.jpg?sign=1738790343-B5jz6x0jMVjntmrBkqwVRuiHJKqhhDds-0-5f1850d6d2c90cee57bc966dcb923d10)
因为p1<p2,可知f′(p1)≤f′(p2),所以f′是单调递增的。
综上所述,结论得证。
更进一步地,如果对于每个x∈(a,b)而言,f″(x)都存在,那么f″(x)≥0也是f为凸函数的充分必要条件。
把本小节开头给出的凸函数定义拓展到3个变量p1、p2、p3和3个权重λ1,λ2和λ3的情况。此时,λ1+λ2+λ3=1,即λ2+λ3=1-λ1。所以有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28410.jpg?sign=1738790343-PzvPTchS37fkODz7DtQBzmexcIlzTI3n-0-f83758a84ee7610306939acca7981006)
事实上,上面这个不等式关系很容易推广到n个变量和n个权重的情况,这个结论就是著名的詹森不等式。
2.2.2 詹森不等式及其证明
从凸函数的性质中所引申出来的一个重要结论就是詹森(Jensen)不等式:如果f是定义在实数区间[a,b]上的连续凸函数,x1,x2,…,xn∈[a,b]。并且有一组实数λ1,λ2,…,λn≥0满足=1,那么则有下列不等式关系成立
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28411.jpg?sign=1738790343-NRdX2dOBziHFpadV2wqfYYYxoNquPVYy-0-9b0726ef3c9e147f3d8c59ebe4bf5016)
如果函数f是凹函数,那么不等号方向逆转。
下面试着用数学归纳法来证明詹森不等式,注意我们仅讨论凸函数的情况,凹函数的证明与此类似。
证明 当n=2时,则根据上一小节给出的凸函数之定义可得命题显然成立。设n=k时命题成立,即对任意x1,x2,…,xk∈[a,b]以及α1,α2,…,αk≥0满足=1都有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28416.jpg?sign=1738790343-YWofSUIyLUnOH7Bzm1a0pwEmaUkyOTZe-0-efcc92112e990fa3c730326b68c25c6d)
现在假设x1,x2,…,xk,xk+1∈[a,b]以及λ1,λ2,…,λk,λk+1≥0满足=1,令
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28420.jpg?sign=1738790343-M33ibJzjwUQGSBxFUxAQGMPdBia1ITVF-0-b259aec890ad1cf26213a0a7bceff52a)
如此一来,显然满足=1。由数学归纳法假设可推得(注意,第一个不等号的取得利用了n=2时的詹森不等式)
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28426.jpg?sign=1738790343-OlpXusfjoZV1ZwJsyHX1aeGvKD23NMF0-0-dbd725a54266bc9e66e37888e76a2a20)
故命题成立。
不同资料上,所给出的詹森不等式可能具有不同的形式(但本质上它们是统一的)。如果把λ1,λ2,…,λn看做是一组权重,那就还可以从数学期望的角度去理解詹森不等式。即如果f是凸函数,X是随机变量,那么就有E[f(x)]≥f(E[X])。特别地,如果f是严格的凸函数,那么当且仅当X是常量时,上式取等号。
用图形来表示詹森不等式的结论是一目了然的。仍然以图2-7为例,假设随机变量X有θ的可能性取得值p2,有(1-θ)的可能性取得值p1,根据数学期望的定义可知E[X]=θp2+(1-θ)p1。同样道理,E[f(x)]=θf(p2)+(1-θ)f(p1)。所以可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28430.jpg?sign=1738790343-6T2VOYXHhCovUnTZHL9TEIGA8ZntA4t2-0-829f0cdc6f1862aa68d8501c5344f9a4)
下面给出一个更为严谨的证明。假设f是一个可微的凸函数,对于任意的p1<p2,一定存在一个点ξ,p1<ξ<p2,满足
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28432.jpg?sign=1738790343-qXOSfAOQ7EPj68Yzeu4VwqpJYi2Pif4t-0-385e4bd55d254b366a4877505916f5ae)
注意这里应用了上一小节给出的定理,即f′是单调递增函数这个结论。进而有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28434.jpg?sign=1738790343-agAIqXE7wHmtrsFofuuuOEcO8IJQT2wu-0-7c1a06a2e0131f398506ddf143099b7d)
令p1=X,p2=E[X],重写上式就为
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28436.jpg?sign=1738790343-C657sfpThVQfWNA1ClihAhimHqxwO1gH-0-b8c276d703ffc5010dff9d332c31362d)
然后对两边同时取期望,就得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28438.jpg?sign=1738790343-HAeKz5YpPlasUWxVSAU9tuUNGLTla3ha-0-891c4b94afc21203fadb32eb3e020848)
其中不等式右边可进一步化简得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28440.jpg?sign=1738790343-jxamkjgBf8TZC1lYv3fWCgHI5VxGOM0o-0-d889d83ed848219f64787363ee81e432)
于是结论得证。
2.2.3 詹森不等式的应用
詹森不等式在诸多领域都有重要应用,其中一个重要的用途就是证明不等式。本小节举两个例子演示詹森不等式的应用。首先,来看一下重要的算术-几何平均值不等式:
设x1,x2,…,xn为n个正实数,它们的算术平均数是An=(x1+x2+…+xn)/n,它们的几何平均数是Gn=。算术-几何平均值不等式表明,对于任意正实数,总有An≥Gn,等号成立当且仅当x1=x2=…=xn。
在下一章中,我们还会演示利用拉格朗日乘数法证明算术-几何平均值不等式的方法。现在先来看看如何用詹森不等式证明它。
证明 因为-lnx是一个凸函数,那么lnx显然就是一个凹函数。根据詹森不等式
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28451.jpg?sign=1738790343-v8UZ6uTHXDhnh9hrVrqoyKDN8SVSaypO-0-f86e768c5b0dde2b9fe43a707127384c)
因为lnx是单调递增的,所以
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28452.jpg?sign=1738790343-L02LHrc0xk7ywd7PFs70dUgtH7dSAG9Q-0-db7b4883912641b756955493f47886e0)
所以结论得证。
在第3章中,本书会谈到闵可夫斯基不等式和柯西-施瓦茨不等式。闵可夫斯基不等式的证明用到了赫尔德(Hö lder)不等式,柯西-施瓦茨不等式则可被认为是赫尔德不等式的特殊情况。所以下面我们试着利用詹森不等式来证明赫尔德不等式。
赫尔德不等式:设对i=1,2,…,n,ai>0,bi>0,又p>1,p′>1,1/p+1/p′=1,则
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28454.jpg?sign=1738790343-KDNWUeojMk0OQiEVMpZKrOZGWtiAQEQp-0-2b2a919648cc276d44793d91a555edb7)
特别地,当p=p′=2时,得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28455.jpg?sign=1738790343-mjWgtR00C2RERorUaYNxtY20quwLf6DZ-0-9ac8fcdeacc92340fe865ab07161601b)
这其实就是本书后面还会介绍的柯西-施瓦茨不等式。
证明赫尔德不等式之前,先证明一个引理:当a>0,b>0,p>1,1/p+1/p′=1,则
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28457.jpg?sign=1738790343-Xg00d54VtWsCWFx0gWdLwyzr26Q2Pavl-0-8c1b873014f851f3dab149c7ab1d49b4)
证明 令f(x)=-lnx,则f″(x)=x-2>0,x∈(0,+∞)。这样显然f(x)是定义在(0,+∞)上的凸函数。令1/p=λ1,1/p′=λ2,ap>0,bp′>0。由于p>1,显然p′>1。由詹森不等式可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28459.jpg?sign=1738790343-W9AQj6Uf15FZIBI0RP505e70coiICh6v-0-addfa1712556afabe74adb2de06feb63)
两边同时取指数,于是可得证原结论成立。
下面证明赫尔德不等式。
证明 设
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28461.jpg?sign=1738790343-BI1GXee2xv1jqhHxYuTVWsX8EsPsFmNR-0-c65635d5ff402d904e42f51c42fb7ea1)
则由上述引理可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P87_28467.jpg?sign=1738790343-23WjBYW2Gk51fQT5FjJ5Y543t6j0HTiV-0-a78f01881e9944b08ad643d93c81d944)
把i=1,2,…,n的n个不等式相加,则有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P87_28468.jpg?sign=1738790343-Sio1Cehs87ZIfxfJCRKltJRDIbt95AYT-0-e889c5bea32cf2b1d77a71839ea53997)
结论得证。