ラグランジュの未定乗数法の解説と直感的な証明

ある関数 $f(x,y)$ を束縛条件 $g(x,y)=0$ の元で最大化あるいは最小化する $(x,y)$ を求める際に用いられるのがラグランジュの未定乗数法(Lagrange Multipliers)です。ラグランジュの未定乗数法の式

L(x,y)=f(x,y)-\lambda g(x,y)

\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0

は一見複雑な見た目をしており特に $L(x,y)$ が何を意味しているのかが分かりにくいと思います。この文書ではラグランジュの未定乗数法の式が何を意味していて、なぜこれによって束縛条件 $g(x,y)=0$ の元での $f(x,y)$ の最大値（あるいは最小値）を求めることができるのかを直感的に分かりやすいように説明します。

ただし微分、ベクトルに関して高校レベルの数学を理解している必要があります。

ラグランジュの未定乗数法

2次元の場合

$(x,y)$ が束縛条件 $g(x,y)=0$ をみたす条件下で、ある関数 $f(x, y)$ を最大化（最小化）することを考える。変数 $\lambda$ を導入して関数 $L(x,y,\lambda)$ を次のように定義する。

L(x,y,\lambda)=f(x,y)-{\lambda}g(x,y)

$\lambda$ のことをラグランジュ乗数(Lagrange multiplier)、 $L(x,y,\lambda)$ をラグランジュ関数(Lagrange function)と呼ぶ。ある $(x_0, y_0)$ が束縛条件 $g(x,y)=0$ を満たし $f(x, y)$ を最大化または最小化するならば、ある $\lambda_0$ が存在し、 $(x_0,y_0,\lambda_0)$ において

\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0

が成立する。

$n$ 次元の場合

$n$ 個の変数 $x_1,x_2,\ldots,x_n$ が束縛条件 $g(x_1,x_2,\ldots,x_n)=0$ をみたしている場合に、関数 $f(x_1,x_2,\ldots,x_n)$ を最大化する $(x_1,x_2,\ldots,x_n)$ を求めたい。

L(x_0,x_1,\ldots,x_n,\lambda)=f(x_1,x_2,\ldots,x_n)-\lambda g(x_1,x_2,\ldots,x_n)

で定義される $L$ 対して、 $f$ が束縛条件 $g=0$ の元で最大化される時

\frac{\partial L}{\partial x_0}=\frac{\partial L}{\partial x_1}=\ldots=\frac{\partial L}{\partial x_n}=\frac{\partial L}{\partial \lambda}=0

が成立する。

式の意味の解説と直感的な証明

2次元の場合で考えましょう。ラグランジュの未定乗数法で使われる等式を確認のためにもう一度書いておきます。

\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0

(1) $\frac{\partial L}{\partial \lambda}=0$ の意味

まず初めに $\frac{\partial L}{\partial \lambda}=0$ の部分ですが、これは単に $g(x,y)=0$ を難しく書きなおしたものに過ぎません。

\frac{\partial L}{\partial \lambda}=\frac{\partial({f(x,y)-{\lambda}g(x,y)})}{\partial \lambda}=\frac{\partial{f(x,y)}}{\partial \lambda}-\frac{\partial(\lambda g(x,y))}{\partial \lambda}=-g(x,y)=0

$\frac{\partial L}{\partial \lambda}=0$ は束縛条件 $g(x,y)=0$ を別の方法で表現したものに過ぎないので、 $(x,y)$ を解析的に求める上では特に役にはたちません。

(2) $\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0$ の意味

ラグランジュ未定乗数法において本当に意味のある部分は

\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0

です。この部分は $\lambda$ の場合と異なり $x$ , $y$ をまとめて解釈すると分かりやすいです。 $L$ を展開して、変形すると

\frac{\partial f(x,y)}{\partial x}-\lambda \frac{\partial g(x,y)}{\partial x}=0

\frac{\partial f(x,y)}{\partial y}-\lambda \frac{\partial g(x,y)}{\partial y}=0

$-\lambda$ の項をそれぞれ右辺に持っていけば、

\frac{\partial f(x,y)}{\partial x}=\lambda \frac{\partial g(x,y)}{\partial x}

\frac{\partial f(x,y)}{\partial y}=\lambda \frac{\partial g(x,y)}{\partial y}

$f(x,y)$ は $f$ として省略して書きつつ、ベクトルで２つの式をまとめると

\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right) =\lambda \left( \begin{array}{c} \frac{\partial g}{\partial x} \\ \frac{\partial g}{\partial y} \end{array} \right)

これはどういう意味でしょうか？ 2つのベクトル $\vec{a}$ , $\vec{b}$ がある実数 $k$ に対して $\vec{a}=k\vec{b}$ が成り立っているというのは、2つのベクトル $\vec{a}$ , $\vec{b}$ が平行であることを意味します。つまりラグランジュ未定乗数法の

\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0

はベクトル $\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right)$ とベクトル $\left( \begin{array}{c} \frac{\partial g}{\partial x} \\ \frac{\partial g}{\partial y} \end{array} \right)$ は平行であるということを意味しているのです。

つまりラグランジュ未定乗数法は $f(x,y)$ を最大化する点 $(x,y)$ において、 $f(x,y)$ , $g(x,y)$ を偏微分して得られるベクトル $\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right)$ , $\left( \begin{array}{c} \frac{\partial g}{\partial x} \\ \frac{\partial g}{\partial y} \end{array} \right)$ は平行になるといういうことを難解に表現したものに過ぎません。後は偏微分で得られるベクトル $\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right)$ が何を意味しているかを理解すればラグランジュの未定乗数法が何を意味していて何故それを使って $f(x,y)$ を最大化する $(x, y)$ を求めることができるのかが理解できます。

勾配 (gradient)，法線ベクトル

$\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right)$ のことを専門用語で勾配 (Gradient)と呼び、 $\nabla f$ と表記します。つまりラグランジュの未定乗数法は、 $f(x,y)$ を最大化する点において $f(x,y)$ , $g(x,y)$ のそれぞれの勾配 $\nabla f$ , $\nabla g$ が平行になるということを意味しています。では勾配 $\nabla f$ , $\nabla g$ はどのようなベクトルなのでしょうか。

ある一定値 $c$ に対して $f(x,y)=c$ をみたす $(x,y)$ について考えます。この $(x,y)$ は $(x,y)$ 平面上の曲線となり、 $f$ を山の高さだと思うと関数 $f(x,y)$ の等高線に相当するものになります。

曲線 $f(x,y)=c$ 上のある点 $(x,y)$ から、 $(x,y)$ を微小に $(\Delta x,\Delta y)$ だけ変化させたることを考えます。 $(x,y)$ を微小に変化させた場合の $f$ の変化は偏微分に比例するので

f(x+\Delta x,y+\Delta y)\simeq f(x,y)+\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y=c+\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y

いま $(\Delta x,\Delta y)$ が曲線 $f(x,y)=c$ の接線方向のベクトルだとすると、 $(\Delta x,\Delta y)$ だけ移動した点 $(x+\Delta x,y+\Delta y)$ も曲線上の点になるので $f(x+\Delta x,y+\Delta y)=c$ 。そのため

f(x+\Delta x,y+\Delta y)=c+\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y=c

となります。両辺から $c$ を引いて

\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y=0

ベクトルの内積で表現すると

\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right) \cdot \left( \begin{array}{c} \Delta x \\ \Delta y \end{array} \right) = \nabla f \cdot \left( \begin{array}{c} \Delta x \\ \Delta y \end{array} \right)=0

(ゼロではない) 2つのベクトルの内積が0になるのは、2つのベクトルが直交する時です。そして $\left( \begin{array}{c} \Delta x \\ \Delta y \end{array} \right)$ は曲線 $f(x,y)=c$ の接線方向の微小なベクトルです。その接線方向のベクトルと直交する勾配 $\nabla f$ は、すなわち、 $f(x,y)=c$ の法線ベクトルに他なりません。

そしてラグランジュ未定乗数法の $\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0\Leftrightarrow\exists\nabla f=\lambda \nabla g$ は $f$ の等高線 $f(x,y)=c$ と束縛条件の曲線 $g(x,y)=0$ のそれぞれの法線ベクトルが平行であることを意味しています。つまりは2つの曲線が接しているということです。

なぜ $f(x,y)=c$ , $g(x,y)=0$ が接する必要があるか

以上より、ラグランジュの未定乗数法が述べていることは言い換えれば、束縛条件 $g(x,y)$ の元で $f(x,y)$ が最大値(あるいは最小値)となる点 $(x,y)$ において曲線 $g(x,y)=0$ と $f(x,y)=c$ （ $c$ は点 $(x,y)$ における $f(x,y)$ の値）が接するということです。

これは逆に考えて(対偶を考えて)、 $g(x,y)=0$ と $f(x,y)=c$ が点 $(x,y)$ において交差しているならばその点で $f(x,y)$ は最大・最小にはならないと考えれば、直感的に理解できます。

$f(x,y)=c$ で分割された2つの領域の片側は $f(x,y)>c$ となるエリア、もう片側は $f(x,y)<c$ となるエリアです。上の図のようにもし点 $(x,y)$ で $g(x,y)=0$ と $f(x,y)=c$ が交差しているのならば、 $g(x,y)=0$ の曲線上に $f(x,y) > c$ となる点と $f(x,y) < c$ となる点が必ず存在することになります。つまり束縛条件 $g(x,y)=0$ をみたしつつ、 $f(x,y)$ を $c$ よりも大きくする点と小さくする点が存在するわけですから、その点においては $f(x,y)$ は最大・最小いずれにもなることはありません。

解説・証明まとめ

ラグランジュ未定乗数法の式

\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0

の $\frac{\partial L}{\partial \lambda}=0$ の部分は単に束縛条件 $g(x,y)=0$ を言い換えたものです。 $\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0$ の部分は $f$ , $g$ の勾配(gradient) $\nabla f$ , $\nabla g$ が平行であることと意味しています。勾配 $\nabla f$ は $f(x,y)$ の等高線の法線ベクトルであるので、 $\nabla f$ , $\nabla g$ が平行であるというのは要するに $f(x,y)$ の等高線と $g(x,y)$ の等高線が接していることと同義です。

最終更新: 2019/1/7