アルゴリズム

ここでは、ベイズ最適化に関する説明を行います。技術的な詳細については、こちらの文献を参照してください。

ベイズ最適化

ベイズ最適化は、複雑なシミュレーションや、実世界における実験タスクなど、目的関数（特性値など）の評価に大きなコストがかかるような場合に利用できる手法です。つまり、「できるだけ少ない実験・シミュレーション回数でより良い目的関数（材料特性など）を持つ説明変数（材料の組成、構造、プロセスやシミュレーションパラメータなど）を見つけ出す」ことが、ベイズ最適化によって解かれる問題です。ベイズ最適化では、探索する説明変数（ベクトル \({\bf x}\) で表す）の候補をあらかじめリストアップした状況からスタートします。そして、候補の中から目的関数 \(y\) が良くなると考えられる候補を、機械学習（ガウス過程回帰を利用）による予測をうまく利用することで選定します。その候補に対して実験・シミュレーションを行い目的関数の値を評価します。機械学習による選定・実験シミュレーションによる評価を繰り返すことにより、できるだけ少ない回数で最適化が可能となります。

ベイズ最適化のアルゴリズムの詳細を以下に示します。 - ステップ１：初期化

探索したい空間をあらかじめ用意します。つまり、候補となる材料の組成・構造・プロセスやシミュレーションパラメータ等を、ベクトル \({\bf x}\) で表現しリストアップします。この段階では、目的関数の値はわかっていません。このうち初期状態としていくつかの候補を選び、実験またはシミュレーションによって目的関数の値 \(y\) を見積もります。これにより、説明変数 \({\bf x}\) と目的関数 \(y\) が揃った学習データ \(D = \{ {\bf x}_i, y_i \}_{(i=1, \cdots, N)}\) が得られます。

ステップ２：候補選定

学習データを用いて、ガウス過程を学習します。ガウス過程によれば、任意の \({\bf x}\) における予測値の平均を \(\mu_c ({\bf x})\) 、分散を \(\sigma_c ({\bf x})\) とすると、

\[ \begin{align}\begin{aligned}\mu_c ({\bf x}) &= {\bf k}({\bf x})^T (K+\sigma^2 I)^{-1}{\bf y}\\\sigma_c({\bf x}) &= k({\bf x}, {\bf x}) + \sigma^2 - {\bf k}({\bf x})^T (K+\sigma^2 I)^{-1}{\bf k}({\bf x})\end{aligned}\end{align} \]

となります。ただし、 \(k({\bf x}, {\bf x}')\) はカーネルと呼ばれる関数であり、２つのベクトルの類似度を表します。一般に、以下のガウスカーネルが使われます。

\[k({\bf x}, {\bf x}') = \exp \left[ -\frac{1}{2\eta^2}||{\bf x} - {\bf x}'||^2 \right]\]

また、このカーネル関数を利用し、 \({\bf k}({\bf x})\) および \(K\) は以下のように計算されます。

\[{\bf k}({\bf x}) = \left( k({\bf x}_1, {\bf x}), k({\bf x}_2, {\bf x}), \cdots, k({\bf x}_N, {\bf x}) \right)^\top\]

\[ K = \left( \begin{array}{cccc} k({\bf x}_1, {\bf x}_1) & k({\bf x}_1, {\bf x}_2) & \ldots & k({\bf x}_1, {\bf x}_N) \\ k({\bf x}_2, {\bf x}_1) & k({\bf x}_2, {\bf x}_2) & \ldots & k({\bf x}_2, {\bf x}_N) \\ \vdots & \vdots & \ddots & \vdots \\ k({\bf x}_N, {\bf x}_1) & k({\bf x}_N, {\bf x}_2) & \ldots & k({\bf x}_N, {\bf x}_N) \end{array} \right) \]

まだ実験やシミュレーションを行っていない候補全てに対して、予測値 \(\mu_c ({\bf x})\) および予測の不確かさに関連する分散 \(\sigma_c ({\bf x})\) を見積もります。これを用いて獲得関数を計算し、目的関数の値がまだわかっていない候補の中から、獲得関数を最大化する候補 \({\bf x}^*\) を選定します。このとき、 \(\sigma\) および \(\eta\) はハイパーパラメタと呼ばれ、PHYSBOでは最適な値が自動で設定されます。

獲得関数として、例えば、最大改善確率(PI : Probability of Improvement)、最大期待改善率(EI : Expected Improvement)が有用です。 PIによるスコアは次のように定義される。

\[\text{PI} (\mathbf{x}) = \Phi (z (\mathbf{x})), \ \ \ z(\mathbf{x}) = \frac{\mu_c (\mathbf{x}) - y_{\max}}{\sigma_c (\mathbf{x})}\]

ここで \(\Phi(\cdot)\) は累積分布関数です。 PIスコアは、現在得られている \(y\) の最大値 \(y_{\max}\) を超える確率を表します。さらに、EIによるスコアは、予測値と現在の最大値 \(y_{\max}\) との差の期待値であり、次式で与えられます。

\[\text{EI} (\mathbf{x}) = [\mu_c (\mathbf{x})-y_{\max}] \Phi (z (\mathbf{x})) + \sigma_c (\mathbf{x}) \phi (z (\mathbf{x})), \ \ \ z(\mathbf{x}) = \frac{\mu_c (\mathbf{x}) - y_{\max}}{\sigma_c (\mathbf{x})}\]

ここで \(\phi(\cdot)\) は確率密度関数です。

ステップ３：実験

ステップ２で選定された獲得関数が最大となる候補 \({\bf x}^*\) に対して実験またはシミュレーションを行い、目的関数値 \(y\) を見積もります。これにより学習データが一つ追加されます。このステップ２、３を繰り返すことで、スコアのよい候補を探索します。

PHYSBOによるベイズ最適化の高速化

PHYSBOでは、random feature map、トンプソンサンプリング、コレスキー分解を利用することで、ベイズ最適化の高速化を実現しています。まず、random feature mapについて説明します。 random feature map \(\phi (\mathbf{x})\) を導入することでガウスカーネル \(k(\mathbf{x},\mathbf{x}')\) を以下のように近似しています。

\[\begin{split}k(\mathbf{x},\mathbf{x}') = \exp \left[ - \frac{1}{2 \eta^2} \| \mathbf{x} -\mathbf{x}' \| \right]^2 \simeq \phi (\mathbf{x})^\top \phi(\mathbf{x}') \\ \phi (\mathbf{x}) = \left( z_{\omega_1, b_1} (\mathbf{x}/\eta),..., z_{\omega_l, b_l} (\mathbf{x}/\eta) \right)^\top\end{split}\]

ただし、 \(z_{\omega, b} (\mathbf{x}) = \sqrt{2} \cos (\boldsymbol{\omega}^\top \mathbf{x}+b)\) としています。このとき、 \(\boldsymbol{\omega}\) は \(p(\boldsymbol{\omega}) = (2\pi)^{-d/2} \exp (-\|\boldsymbol{\omega}\|^2/2)\) より生成され、 \(b\) は \([0, 2 \pi]\) から一様に選ばれます。この近似は、 \(l \to \infty\) の極限で厳密に成立し、 \(l\) の値がrandom feature mapの次元となります。

このとき \(\Phi\) を、以下のように学習データのベクトル \(\mathbf{x}\) による \(\phi(\mathbf{x}_i)\) を各列に持つ \(l\) 行 \(n\) 列行列とします。

\[\Phi = ( \phi(\mathbf{x}_1),..., \phi(\mathbf{x}_n) )\]

すると、

\[\begin{split}\mathbf{k} (\mathbf{x}) = \Phi^\top \phi(\mathbf{x}) \\ K= \Phi^\top \Phi\end{split}\]

という関係が成立することがわかります。

次に、トンプソンサンプリングを利用することで、候補の予測にかかる計算時間を \(O(l)\) にする手法について紹介します。 EIやPIを利用すると、分散を評価する必要があるため \(O(l^2)\) になってしまうことに注意が必要です。トンプソンサンプリングを行うために、以下で定義されるベイズ線形モデルを利用します。

\[y = \mathbf{w}^\top \phi (\mathbf{x})\]

ただし、この \(\phi(\mathbf{x})\) は前述したrandom feature mapであり、 \(\mathbf{w}\) は係数ベクトルです。ガウス過程では、学習データ \(D\) があたえられたとき、この \(\mathbf{w}\) が以下のガウス分布に従うように決まります。

\[\begin{split}p(\mathbf{w}|D) = \mathcal{N} (\boldsymbol{\mu}, \Sigma) \\ \boldsymbol{\mu} = (\Phi \Phi^\top + \sigma^2 I)^{-1} \Phi \mathbf{y} \\ \Sigma = \sigma^2 (\Phi \Phi^\top + \sigma^2 I)^{-1}\end{split}\]

トンプソンサンプリングでは、この事後確率分布にしたがって係数ベクトルを一つサンプリングし、それを \(\mathbf{w}^*\) とすることで、獲得関数を

\[\text{TS} (\mathbf{x}) = {\mathbf{w}^*}^\top \phi (\mathbf{x})\]

と表す。これを最大とする \(\mathbf{x}^*\) が次の候補として選出されます。このとき、 \(\phi (\mathbf{x})\) は \(l\) 次元ベクトルなため、獲得関数の計算は \(O(l)\) で実行できます。

次に \(\mathbf{w}\) のサンプリングの高速化について紹介します。行列 \(A\) を以下のように定義します。

\[A = \frac{1}{\sigma^2} \Phi \Phi^\top +I\]

すると、事後確率分布は、

\[p(\mathbf{w}|D) = \mathcal{N} \left( \frac{1}{\sigma^2} A^{-1} \Phi \mathbf{y}, A^{-1} \right)\]

と表すことができます。そのため、 \(\mathbf{w}\) をサンプリングするためには、 \(A^{-1}\) の計算が必要となります。ここで、ベイズ最適化のイテレーションにおいて、新しく \((\mathbf{x}', y')\) が加わった場合について考えます。このデータの追加により、行列 \(A\) は、

\[A' = A + \frac{1}{\sigma^2} \phi (\mathbf{x}') \phi (\mathbf{x}')^\top\]

と更新されます。この更新は、コレスキー分解( \(A= L^\top L\) )を用いることで、 \(A^{-1}\) の計算にかかる時間を \(O(l^2)\) にすることができます。もし、 \(A^{-1}\) をイテレーションごとに毎回計算すると \(O(l^3)\) の計算が必要になります。実際、 \(\mathbf{w}\) をサンプリングする際は、

\[\mathbf{w}^* = \boldsymbol{\mu} + \mathbf{w}_0\]

とし、 \(\mathbf{w}_0\) を \(\mathcal{N} (0,A^{-1})\) からサンプリングします。また、 \(\boldsymbol{\mu}\) は、

\[L^\top L \boldsymbol{\mu} = \frac{1}{\sigma^2} \Phi \mathbf{y}\]

を解くことで得られます。これらの技術を利用することで、学習データ数に対してほぼ線形の計算時間を実現しています。

回帰モデルにおける説明変数の重要度

回帰モデル \(f(\mathbf{x})\) における説明変数（特徴量）の重要度は、それぞれの説明変数をランダムに並べ替えたテストデータに対して、モデルの予測精度がどれだけ低下するかを評価することで計算できます。

説明変数の数（探索空間の次元）を \(D\) とし、テストデータの数を \(N\) とします。この時、テストデータの入力は \(N \times D\) の行列 \(\mathbf{X}\) で表されます。出力（目的関数）は \(N\) 次元ベクトル \(\mathbf{y}\) で表されます。モデルの予測精度は、モデルの出力とテストデータの出力の平均二乗誤差（MSE）とします。

まず、モデルの予測精度のベースラインとして、テストデータそのものの予測値の平均二乗誤差（MSE）を計算します。

\[\text{MSE}^{\text{base}} = \frac{1}{N} \| \mathbf{y} - f(\mathbf{X}) \|^2\]

\(a\) 番目の説明変数の重要度を調べるために、入力データのうち \(a\) 番目の変数のみ、\(N\) 要素の置換 \(P\) で並べ替えたデータ \(X^{P}\) を作成します。

\[\begin{split}X^{P}_{i,a} &= X_{P(i),a}\\ X^{P}_{i,b} &= X_{i,b} \ \ \ \text{for} \ b \neq a\end{split}\]

\(\mathbf{X}^{P}\) のテスト誤差は

\[\text{MSE}^{P}_{a} = \frac{1}{N} \| \mathbf{y} - f(\mathbf{X}^{P}) \|^2\]

となります。 Permutation Importance (PI) は、置換 \(P\) をランダムに \(N_\text{perm}\) 個生成して、

\[\text{PI}_{a} = \frac{1}{N_\text{perm}} \sum_{P} \text{MSE}^{P}_{a} - \text{MSE}^{\text{base}}\]

と計算されます。 \(\text{PI}_{a}\) が大きければ大きいほど、説明変数 \(a\) のランダム置換によってモデルの予測精度が悪化していることになり、つまり \(a\) が重要であることを示します。