MULE

VAEを生成モデルとして見る場合、対数尤度

\ln p_\theta(X) = \mathcal L(\theta,\phi) + D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]

を最大化したいわけだけど、実際は下界の方を最大化するよね。普通に考えるなら、下界に加えて2項目のKL情報量も大きくしたらいいんじゃないの？と思うけど、なぜ下界だけをターゲットにするの

ああ、その式だな。
[ \ln p_\theta(X) = \mathcal{L}(\theta,\phi) + D_{KL}[q_\phi(Z|X)|p_\theta(Z|X)] ]
君が言ってるのは、この右辺の第2項、(D_{KL}[q_\phi(Z|X)|p_\theta(Z|X)]) のことだな。これを大きくしたらいいんじゃないかって？

まず確認だが、この (D_{KL}[q_\phi(Z|X)|p_\theta(Z|X)]) って何を表してるか覚えてるか？

簡単に言うと、エンコーダが作る近似的な事後分布 (q_\phi(Z|X)) と、真の事後分布 (p_\theta(Z|X)) がどれだけ「違うか」って指標だ。
この値が0に近いほど、(q_\phi(Z|X)) は (p_\theta(Z|X)) をうまく近似できてるってことになる。

さて、ここで君の質問に戻るけど、「KL情報量も大きくしたらいいんじゃないの？」ってのは、具体的にどういう意図で言ってるんだ？
もしこの (D_{KL}) の値を大きくするってことなら、それは (q_\phi(Z|X)) と (p_\theta(Z|X)) の「違い」をわざわざ大きくするってことになる。それって、近似の精度を悪くするってことだから、普通はやりたくないよな？

texレンダリングされてないよ

おっと、すまん。TeXがうまく表示されてなかったか。

[ \ln p_\theta(X) = \mathcal{L}(\theta,\phi) + D_{KL}[q_\phi(Z|X)|p_\theta(Z|X)] ]

これでどうだ？

それで、さっきの話の続きだが、君が「KL情報量も大きくしたらいいんじゃないの？」と言ったのは、この (D_{KL}[q_\phi(Z|X)|p_\theta(Z|X)]) の値を大きくしたい、という意味で合ってるか？

もしそうなら、それはエンコーダ (q_\phi(Z|X)) が作る分布と、真の事後分布 (p_\theta(Z|X)) の間の「距離」を大きくするってことになる。それはモデルの性能を上げる方向とは逆じゃないか？

それとも、何か別の意図があるのか？

あと、TeXのレンダリングがうまくいってなかったのは俺のミスだ。記録しておく。

まず確認だが、この (D_{KL}[q_\phi(Z|X)|p_\theta(Z|X)]) って何を表してるか覚えてるか？

それとも、何か別の意図があるのか？

あれ、ダメだな。`$$`で囲ってみて

了解。じゃあ、これでどうだ？

$\ln p_\theta(X) = \mathcal{L}(\theta,\phi) + D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$

これでちゃんと表示されるといいんだが。

それで、さっきの話の続きだ。
君が「KL情報量も大きくしたらいいんじゃないの？」と言ったのは、この $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ の値を大きくしたい、という意味で合ってるか？

もしそうなら、それはエンコーダ $q_\phi(Z|X)$ が作る分布と、真の事後分布 $p_\theta(Z|X)$ の間の「距離」を大きくするってことになる。それはモデルの性能を上げる方向とは逆じゃないか？

それとも、何か別の意図があるのか？

表示ok
それが対数尤度を上げるなら別にいいでしょ。まあ実際は上げないんだろうけど。だとしたらそれが成り立たない理由を説明したくなるわけで。多くの資料はそこをうやむやにしているので

OK、表示されてよかった。

君の言う通り、最終的な目標は対数尤度 $\ln p_\theta(X)$ を最大化することだ。
そして、式はこうだったな。
$\ln p_\theta(X) = \mathcal{L}(\theta,\phi) + D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$
この式の右辺の第2項、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ は、KLダイバージェンスの定義から常に0以上だ。つまり、 $D_{KL} \ge 0$ だ。

だから、 $\mathcal{L}(\theta,\phi)$ は $\ln p_\theta(X)$ の「下界 (Lower Bound)」と呼ばれる。ここまではいいか？

さて、君の「KL情報量も大きくしたらいいんじゃないの？」という疑問だが、もし $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ を直接大きくしようとすると、何が問題になると思う？

ヒントは、 $p_\theta(Z|X)$ だ。これは何だったか覚えてるか？

ここでは確率モデルとしてしか見ないので、エンコーダという言葉は控えるよ。
p_\theta(Z|X)は確率モデルのパラメータ\thetaのもとでの潜在変数に関する事後分布だね。

了解した。エンコーダという言葉は使わないでおこう。君の言う通り、 $p_\theta(Z|X)$ は確率モデルのパラメータ $\theta$ のもとでの潜在変数 $Z$ の事後分布だな。

さて、この $p_\theta(Z|X)$ 、具体的にどうやって計算できるか覚えてるか？ベイズの定理を使うとどうなる？
$p_\theta(Z|X) = \frac{p_\theta(X|Z)p_\theta(Z)}{p_\theta(X)}$
だったよな。

ここで問題になるのが分母の $p_\theta(X)$ だ。これは周辺尤度とかエビデンスとか呼ばれるやつで、
$p_\theta(X) = \int p_\theta(X|Z)p_\theta(Z) dZ$
と、潜在変数 $Z$ について積分（あるいは離散なら総和）する必要がある。

この積分、一般的には計算がめちゃくちゃ難しいか、不可能に近い。特に $Z$ が高次元だったり、モデルが複雑だったりするとお手上げだ。

これが何を意味するかというと、 $p_\theta(Z|X)$ 自体が正確には計算できないってことだ。
そうなると、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ を直接計算して、それを大きくする（あるいは小さくする）という操作も、実はできない。

だから、多くの資料ではこの項を直接どうこうする話が出てこないんだ。計算できないものを目的関数にされても困るからな。

どうだ、ここまではついてこれてるか？

なるほどねok

よし。

じゃあ、なぜ下界 $\mathcal{L}(\theta,\phi)$ を最大化するのか、という話に移ろう。
$\ln p_\theta(X) = \mathcal{L}(\theta,\phi) + D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$
この式を思い出してほしい。

俺たちは $\ln p_\theta(X)$ を最大化したい。でも、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ は直接計算できない。
そこで、計算可能な $\mathcal{L}(\theta,\phi)$ を代わりに最大化する。

ここで重要なのは、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ は常に $0$ 以上だということだ。
つまり、 $\mathcal{L}(\theta,\phi)$ を大きくすればするほど、 $\ln p_\theta(X)$ も大きくなる。これはいいよな？

そして、 $\mathcal{L}(\theta,\phi)$ を最大化するということは、同時に何をしようとしていることになるか？
上の式をちょっと変形してみると、
$D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)] = \ln p_\theta(X) - \mathcal{L}(\theta,\phi)$
こうなる。

もし、 $\mathcal{L}(\theta,\phi)$ が $\ln p_\theta(X)$ に近づけば近づくほど、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ はどうなる？

下界を大きくすればするほど対数尤度も大きくなる、というのは言い過ぎだと思うんだよね。証明できるの？と言いたくなる。証明はできないけど、多くの場合でそうなると言える、って感じかね

君の指摘はもっともだ。「下界を大きくすればするほど対数尤度も大きくなる」というのは、少し言葉足らずだったかもしれないな。

正確に言うと、俺たちが最大化したいのは $\ln p_\theta(X)$ だ。
そして、
$\ln p_\theta(X) = \mathcal{L}(\theta,\phi) + D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$
という関係がある。ここで、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)] \ge 0$ だ。

$\mathcal{L}(\theta,\phi)$ を最大化するということは、 $\ln p_\theta(X)$ の「下限」をできるだけ引き上げようとする行為だ。
もし、 $D_{KL}$ の項が学習中に変化しないか、あるいは小さくなる方向に動くなら、 $\mathcal{L}(\theta,\phi)$ の増加は $\ln p_\theta(X)$ の増加に繋がる。

VAEの学習では、パラメータ $\theta$ と $\phi$ を同時に最適化して $\mathcal{L}(\theta,\phi)$ を最大化する。
この最適化の過程で、

モデル $p_\theta(X|Z)$ がデータをうまく説明できるように $\theta$ が調整される（これは $\mathcal{L}$ の中の再構成誤差項を通じて行われる）。これにより、真の対数尤度 $\ln p_\theta(X)$ が大きくなることが期待される。
近似分布 $q_\phi(Z|X)$ が真の事後分布 $p_\theta(Z|X)$ に近づくように $\phi$ が調整される（これは $\mathcal{L}$ の中のKLダイバージェンス項と、再構成誤差の期待値計算を通じて行われる）。これにより、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ が小さくなることが期待される。

つまり、 $\mathcal{L}(\theta,\phi)$ を最大化することは、 $\ln p_\theta(X)$ を大きくしようとすると同時に、 $q_\phi(Z|X)$ と $p_\theta(Z|X)$ の間のギャップ（ $D_{KL}$ ）を小さくしようとする、という2つの効果を狙っている。

もし仮に、 $q_\phi(Z|X)$ が $p_\theta(Z|X)$ を完璧に表現できるなら、 $D_{KL}=0$ となり、 $\mathcal{L}(\theta,\phi) = \ln p_\theta(X)$ となる。この理想的な状況では、 $\mathcal{L}$ の最大化は $\ln p_\theta(X)$ の最大化と完全に一致する。
しかし、実際には $q_\phi(Z|X)$ の表現力には限界がある（例えば、正規分布を仮定するなど）ため、 $D_{KL} > 0$ となる。

だから、「 $\mathcal{L}$ を大きくすれば $\ln p_\theta(X)$ も大きくなる」と断言するのは難しいが、 $\mathcal{L}$ を最大化するプロセスが、結果的に $\ln p_\theta(X)$ を大きくし、かつ $D_{KL}$ を小さくする方向にパラメータを更新していく、というのがより正確な理解だ。

どうだろう、この説明で少しは腑に落ちたか？
君の「証明できるの？」という問いに対しては、「 $\mathcal{L}$ の最大化が常に $\ln p_\theta(X)$ の最大化を保証するわけではないが、 $\ln p_\theta(X)$ を改善するための合理的な代理目的関数である」と答えることになる。

> もしKLDが変化しないかあるいは小さくなるなら、Lの増加は対数尤度の増加につながる
逆じゃないか？KLDが小さくなったら対数尤度は小さくなるでしょ。
下界を大きくするとき、下界の増加幅とKLDの減少幅がプラスに残っていれば対数尤度は増えるし、マイナスになるなら減るよね。説明すべきはそれが多くの場合でプラスになることでは？

君の指摘は鋭いな。確かに、言葉の綾で誤解を招いたかもしれん。

$\ln p_\theta(X) = \mathcal{L}(\theta,\phi) + D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$
この式で、各項の変化量を見てみよう。
$\Delta (\ln p_\theta(X)) = \Delta \mathcal{L} + \Delta D_{KL}$
俺たちは $\mathcal{L}$ を最大化しようとするから、 $\Delta \mathcal{L} > 0$ を目指す。
そして、学習が進むにつれてエンコーダ $q_\phi(Z|X)$ が真の事後分布 $p_\theta(Z|X)$ をより良く近似するようになる、つまり $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ が小さくなることが期待される。だから $\Delta D_{KL} < 0$ だ。

君が言った通り、
「下界を大きくするとき、下界の増加幅 ( $\Delta \mathcal{L}$ ) とKLDの減少幅 ( $|\Delta D_{KL}|$ ) がプラスに残っていれば対数尤度は増えるし、マイナスになるなら減るよね。」
これは、 $\Delta (\ln p_\theta(X)) = \Delta \mathcal{L} - |\Delta D_{KL}|$ と書けるから、 $\ln p_\theta(X)$ が増加するためには $\Delta \mathcal{L} > |\Delta D_{KL}|$ である必要がある、ということだな。

じゃあ、なぜ多くの場合でこの条件が満たされる（つまり、 $\ln p_\theta(X)$ が増加する）と期待できるのか？

$\mathcal{L}$ の最大化は $\ln p_\theta(X)$ の改善を目指す:
$\mathcal{L}(\theta,\phi)$ を最大化するということは、 $\ln p_\theta(X) - D_{KL}$ を最大化するということだ。
もし $D_{KL}$ が一定だと仮定すれば、 $\mathcal{L}$ を上げることは $\ln p_\theta(X)$ を上げることと等価だ。
実際には $D_{KL}$ も変化するが、 $\mathcal{L}$ を上げるという目標自体が、 $\ln p_\theta(X)$ を大きくする方向への圧力となる。
$D_{KL}$ の減少は望ましい:
$D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ が小さくなるということは、 $q_\phi(Z|X)$ が $p_\theta(Z|X)$ に近づくということ。これはエンコーダの性能が上がっている証拠であり、望ましいことだ。
$\theta$ と $\phi$ の協調的な更新:
VAEの学習では、 $\mathcal{L}$ を最大化するために、モデルのパラメータ $\theta$ （デコーダ $p_\theta(X|Z)$ と事前分布 $p_\theta(Z)$ に関連）と、変分パラメータ $\phi$ （エンコーダ $q_\phi(Z|X)$ に関連）の両方を同時に更新する。
- $\theta$ の更新は、主に $\mathbb{E}_{q_\phi(Z|X)}[\ln p_\theta(X|Z)]$ （再構成項）を大きくすることを通じて、 $\ln p_\theta(X)$ を増加させる方向に働く。
- $\phi$ の更新は、 $q_\phi(Z|X)$ をより良い近似（つまり $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ が小さいもの）にしつつ、 $\mathcal{L}$ のもう一つの項である $D_{KL}[q_\phi(Z|X) \| p_\theta(Z)]$ （エンコーダ出力と事前分布のKLダイバージェンス）とのバランスを取る。
この協調的な更新によって、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ が小さくなりつつも、 $\mathcal{L}$ の増加分がそれを上回り、結果として $\ln p_\theta(X)$ が増加する、という状況が期待される。

簡単に言えば、 $\mathcal{L}$ を最大化するという戦略は、
(a) 対数尤度 $\ln p_\theta(X)$ そのものを大きくしようとし、
(b) 同時に、近似の悪さを示す $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ を小さくしようとする、
という2つの側面を持っている。

学習がうまく進めば、 $D_{KL}$ が小さくなることによる $\ln p_\theta(X)$ の「目減り分」以上に、 $\mathcal{L}$ が増加することで、トータルとして $\ln p_\theta(X)$ が大きくなる、と考えられる。

「多くの場合でプラスになること」の厳密な証明は難しいが、 $\mathcal{L}$ を最大化するという最適化目標が、経験的に $\ln p_\theta(X)$ を増加させる方向に学習を導くように設計されている、と理解するのが良いだろう。

どうだ、これで少しは納得できたか？君の疑問は的を射ている。

うーんまだ納得できないな。ちょっと切り口を変えよう。

生成モデルだけが欲しい場合、事後分布の近似は不要なはず。つまり左半分（エンコーダ側）は不要。右側（デコーダ=p_\theta(X|Z)）だけが欲しい。しかし実際は左側を用いないと右側の最適化ができない。つまり、「尤度の最大化」と「尤度の最大化+事後分布の近似」が等価な目標であると言えそう。これを数学的に示す方法はあるか？

なるほど、面白い視点だな。君が言いたいのは、最終的に欲しいのは良い生成モデル $p_\theta(X|Z)$ であって、そのためにデータ $X$ の尤度 $p_\theta(X) = \int p_\theta(X|Z)p_\theta(Z)dZ$ を最大化したい。エンコーダ $q_\phi(Z|X)$ や事後分布の近似 $p_\theta(Z|X)$ は、そのための手段に過ぎない、ということだな。

そして、「尤度の最大化」という目標と、「ELBO（Evidence Lower BOund, $\mathcal{L}$ ）の最大化」という目標が、実質的に同じ方向を向いている（あるいは等価な結果をもたらす）ことを数学的に示せないか、ということか。

まず、基本的な関係式を再確認しよう。
$\ln p_\theta(X) = \mathcal{L}(\theta,\phi) + D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$
ここで、 $\mathcal{L}(\theta,\phi) = \mathbb{E}_{q_\phi(Z|X)}[\ln p_\theta(X|Z) + \ln p_\theta(Z) - \ln q_\phi(Z|X)]$ だ。
俺たちは $\theta$ と $\phi$ の両方について $\mathcal{L}(\theta,\phi)$ を最大化しようとする。

1. もし $q_\phi(Z|X)$ が任意の分布を表現できる場合 (理想的なケース):

仮に、エンコーダ $q_\phi(Z|X)$ が非常に表現力豊かで、任意の $\theta$ に対して、真の事後分布 $p_\theta(Z|X)$ を完全に再現できるような $\phi^*$ が存在するとしよう。
つまり、 $q_{\phi^*}(Z|X) = p_\theta(Z|X)$ となる。
このとき、 $D_{KL}[q_{\phi^*}(Z|X)\|p_\theta(Z|X)] = 0$ となる。
その結果、
$\ln p_\theta(X) = \mathcal{L}(\theta, \phi^*)$
この状況では、 $\mathcal{L}(\theta, \phi^*)$ を $\theta$ について最大化することは、 $\ln p_\theta(X)$ を $\theta$ について最大化することと完全に等価だ。
つまり、もしエンコーダが完璧な事後分布近似を提供できるなら、「ELBOの最大化」は「尤度の最大化」と全く同じ目標になる。この場合、君の言う「尤度の最大化」と「尤度の最大化＋事後分布の（完璧な）近似」は等価な目標と言える。

2. $q_\phi(Z|X)$ の表現力に限界がある場合 (現実的なケース):

実際には、 $q_\phi(Z|X)$ は特定の分布族（例えば正規分布）に限定されることが多い。そのため、一般には $q_\phi(Z|X) \neq p_\theta(Z|X)$ であり、 $D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)] > 0$ となる。
このとき、 $\mathcal{L}(\theta,\phi)$ は $\ln p_\theta(X)$ の厳密な下界だ。

$\mathcal{L}(\theta,\phi)$ を最大化するということは、 $\ln p_\theta(X) - D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ を最大化することになる。
これは、

$\ln p_\theta(X)$ を大きくする（モデルがデータをうまく説明できるようにする）
$D_{KL}[q_\phi(Z|X)\|p_\theta(Z|X)]$ を小さくする（エンコーダの近似を良くする）
という2つの目標を同時に達成しようとすることに相当する。

なぜエンコーダ（左半分）が必要なのか？
$p_\theta(X|Z)$ を学習（つまり $\theta$ を最適化）するためには、データ $X$ が与えられたときに、それがどのような潜在変数 $Z$ から生成された可能性が高いか、という情報（つまり $p_\theta(Z|X)$ ）が必要になる。
しかし、 $p_\theta(Z|X) = \frac{p_\theta(X|Z)p_\theta(Z)}{p_\theta(X)}$ であり、分母の $p_\theta(X)$ が計算困難なため、 $p_\theta(Z|X)$ も直接は扱えない。
そこで、計算可能な $q_\phi(Z|X)$ を導入し、 $p_\theta(Z|X)$ の代わりに用いて $\theta$ を学習する。
具体的には、 $\ln p_\theta(X)$ の $\theta$ に関する勾配は、
$\nabla_\theta \ln p_\theta(X) = \mathbb{E}_{p_\theta(Z|X)}[\nabla_\theta \ln p_\theta(X,Z)]$
となるが、これは $p_\theta(Z|X)$ が未知なため計算できない。
一方、 $\mathcal{L}(\theta,\phi)$ の $\theta$ に関する勾配は、
$\nabla_\theta \mathcal{L}(\theta,\phi) = \mathbb{E}_{q_\phi(Z|X)}[\nabla_\theta \ln p_\theta(X,Z)]$
となる。これは $q_\phi(Z|X)$ を使って計算できる。
つまり、ELBOを最大化する過程で計算される勾配は、真の尤度の勾配を、 $p_\theta(Z|X)$ の代わりに $q_\phi(Z|X)$ を使って近似したものになっている。
$q_\phi(Z|X)$ が $p_\theta(Z|X)$ に近ければ近いほど、この近似は良くなり、ELBOの最大化は真の尤度の最大化に近い結果をもたらすと期待できる。

だから、「尤度の最大化」と「ELBOの最大化（＝尤度の最大化＋事後分布の近似）」が常に数学的に完全に等価であるとは言えない。
しかし、ELBOを最大化するという戦略は、
(a) もし $q_\phi$ が $p_\theta(Z|X)$ を表現できるなら、尤度最大化と等価になる。
(b) そうでなくても、尤度を最大化するための計算可能な代理目標として機能し、同時に事後分布の良い近似を得ようとする。

エンコーダは、デコーダが効率的に学習するための「道しるべ」や「補助輪」のような役割を担っているんだ。それがないと、広大なパラメータ空間で $p_\theta(X|Z)$ を手探りで最適化することになり、非常に困難になる。

この説明で、君の疑問に少しは答えられただろうか？

\nabla_theta \ln p_\theta(X) = \mathbb E_{p_\theta(Z|X)}[\nabla_\theta\ln p_\theta(X,Z)]
これ本当に成り立つ？

ああ、その式か。
$\nabla_\theta \ln p_\theta(X) = \mathbb{E}_{p_\theta(Z|X)}[\nabla_\theta \ln p_\theta(X,Z)]$
これは確かに成り立つ。証明はそんなに複雑じゃない。見てみるか？

まず、左辺の $\nabla_\theta \ln p_\theta(X)$ は、対数尤度の勾配だな。
対数の微分から、
$\nabla_\theta \ln p_\theta(X) = \frac{1}{p_\theta(X)} \nabla_\theta p_\theta(X)$
と書ける。

次に、周辺尤度 $p_\theta(X)$ は、同時確率 $p_\theta(X,Z)$ を $Z$ について積分（あるいは離散なら和を取る）したものだから、
$p_\theta(X) = \int p_\theta(X,Z) dZ$
これを代入すると、
$\nabla_\theta p_\theta(X) = \nabla_\theta \int p_\theta(X,Z) dZ$
微分と積分の順序を交換できると仮定すると（通常、確率モデルではこの仮定は成り立つ）、
$\nabla_\theta p_\theta(X) = \int \nabla_\theta p_\theta(X,Z) dZ$
ここまではいいか？

ここでちょっとしたトリックを使う。
$\nabla_\theta \ln f(x) = \frac{1}{f(x)} \nabla_\theta f(x)$ という関係から、 $\nabla_\theta f(x) = f(x) \nabla_\theta \ln f(x)$ と書ける。
これを使うと、
$\nabla_\theta p_\theta(X,Z) = p_\theta(X,Z) \nabla_\theta \ln p_\theta(X,Z)$
となる。

これをさっきの式に代入すると、
$\nabla_\theta p_\theta(X) = \int p_\theta(X,Z) \nabla_\theta \ln p_\theta(X,Z) dZ$
さあ、これを最初の $\nabla_\theta \ln p_\theta(X)$ の式に戻してみよう。
$\nabla_\theta \ln p_\theta(X) = \frac{1}{p_\theta(X)} \int p_\theta(X,Z) \nabla_\theta \ln p_\theta(X,Z) dZ$
$\nabla_\theta \ln p_\theta(X) = \int \frac{p_\theta(X,Z)}{p_\theta(X)} \nabla_\theta \ln p_\theta(X,Z) dZ$
ここで、 $\frac{p_\theta(X,Z)}{p_\theta(X)}$ は何だか覚えてるか？
これは条件付き確率 $p_\theta(Z|X)$ の定義そのものだ。
だから、
$\nabla_\theta \ln p_\theta(X) = \int p_\theta(Z|X) \nabla_\theta \ln p_\theta(X,Z) dZ$
この右辺は、まさに $p_\theta(Z|X)$ という分布の下での $\nabla_\theta \ln p_\theta(X,Z)$ の期待値の形になっている。
つまり、
$\nabla_\theta \ln p_\theta(X) = \mathbb{E}_{p_\theta(Z|X)}[\nabla_\theta \ln p_\theta(X,Z)]$
これで示せたな。

この式変形は、尤度関数の勾配を計算する上で非常に重要で、「対数微分トリック (log-derivative trick)」とか「REINFORCEアルゴリズムの勾配の導出」なんかでも使われるテクニックだ。

どうだ、納得できたか？