ベイズ最適化

ここでは、ベイズ最適化を行い、回折データから原子座標を解析する方法について説明します。 ベイズ最適化には PHYSBO を用いています。 グリッド探索と同様に、探索グリッドを与えるデータ MeshData.txt を事前に準備する必要があります。

サンプルファイルの場所

サンプルファイルは sample/sim-trhepd-rheed/single_beam/bayes にあります。 フォルダには以下のファイルが格納されています。

  • bulk.txt

    bulk.exe の入力ファイル

  • experiment.txt , template.txt

    メインプログラムでの計算を進めるための参照ファイル

  • ref_BayesData.txt

    計算が正しく実行されたか確認するためのファイル(本チュートリアルを行うことで得られる ColorMap.txt の回答)。

  • input.toml

    メインプログラムの入力ファイル

  • prepare.sh , do.sh

    本チュートリアルを一括計算するために準備されたスクリプト

以下、これらのファイルについて説明したあと、実際の計算結果を紹介します。

参照ファイルの説明

template.txt , experiment.txt については、 前のチュートリアル(Nealder-Mead法による最適化)と同じものを使用します。 ただし、計算を軽くするため value_03 は用いずに 3.5 に固定し、 2次元のグリッド探索を行うように変更してあります。 実際に探索するグリッドは MeshData.txt で与えます。 サンプルでは MeshData.txt の中身は以下のようになっています。

1 3.5 3.5
2 3.6 3.5
3 3.6 3.6
4 3.7 3.5
5 3.7 3.6
6 3.7 3.7
7 3.8 3.5
8 3.8 3.6
9 3.8 3.7
10 3.8 3.8
  ...

1列目が通し番号、2列目以降は template.txt に入る value_0 , value_1 の値が順に指定されています。

入力ファイルの説明

ここでは、メインプログラム用の入力ファイル input.toml について説明します。 input.toml の詳細については入力ファイルに記載されています。 以下は、サンプルファイルにある input.toml の中身になります。

[base]
dimension = 2

[solver]
name = "sim-trhepd-rheed"

[solver.config]
calculated_first_line = 5
calculated_last_line = 74
row_number = 2

[solver.param]
string_list = ["value_01", "value_02" ]
degree_max = 7.0

[solver.reference]
path = "experiment.txt"
first = 1
last = 70

[algorithm]
name = "bayes"
label_list = ["z1", "z2"]

[algorithm.param]
mesh_path = "MeshData.txt"

[algorithm.bayes]
random_max_num_probes = 10
bayes_max_num_probes = 20

最初に [base] セクションについて説明します。

  • dimension は最適化したい変数の個数で、今の場合は template.txt で説明したように2つの変数の最適化を行うので、 2 を指定します。

[solver] セクションではメインプログラムの内部で使用するソルバーとその設定を指定します。

  • name は使用したいソルバーの名前で、このチュートリアルでは、 sim-trhepd-rheed を用いた解析を行うので、 sim-trhepd-rheed を指定します。

ソルバーの設定は、サブセクションの [solver.config], [solver.param], [solver.reference] で行います。

[solver.config] セクションではメインプログラム内部で呼び出す surf.exe により得られた出力ファイルを読み込む際のオプションを指定します。

  • calculated_first_line は出力ファイルを読み込む最初の行数を指定します。

  • calculated_last_line は出力ファイルを読み込む最後の行数を指定します。

  • row_number は出力ファイルの何列目を読み込むかを指定します。

[solver.param] セクションではメインプログラム内部で呼び出す surf.exe により得られた出力ファイルを読み込む際のオプションを指定します。

  • string_list は、 template.txt で読み込む、動かしたい変数の名前のリストです。

  • label_list は、 value_0x (x=1,2) を出力する際につけるラベル名のリストです。

  • degree_max は、最大角度(度単位)の指定をします。

[solver.reference] セクションでは、実験データの置いてある場所と読みこむ範囲を指定します。

  • path は実験データが置いてあるパスを指定します。

  • first は実験データファイルを読み込む最初の行数を指定します。

  • end は実験データファイルを読み込む最後の行数を指定します。

[algorithm] セクションでは、使用するアルゴリスムとその設定をします。

  • name は使用したいアルゴリズムの名前で、このチュートリアルでは、ベイズ最適化による解析を行うので、 bayes を指定します。

  • label_list は、 value_0x (x=1,2) を出力する際につけるラベル名のリストです。

[algorithm.param] セクションで、探索パラメータを設定します。

  • mesh_path はメッシュファイルへのパスを設定します。

[algorithm.bayes] セクションでは、ベイズ最適化のハイパーパラメータを設定します。

  • random_max_num_probes は、ベイズ最適化を行う前のランダム探索する回数を指定します。

  • bayes_max_num_probes は、ベイズ探索を行う回数を指定します。

その他、入力ファイルで指定可能なパラメータの詳細については入力ファイルの章をご覧ください。

計算実行

最初にサンプルファイルが置いてあるフォルダへ移動します(以下、本ソフトウェアをダウンロードしたディレクトリ直下にいることを仮定します).

cd sample/sim-trhepd-rheed/bayes

順問題の時と同様に、 bulk.exesurf.exe をコピーします。

cp ../../../../../sim-trhepd-rheed/src/TRHEPD/bulk.exe .
cp ../../../../../sim-trhepd-rheed/src/TRHEPD/surf.exe .

最初に bulk.exe を実行し、 bulkP.b を作成します。

./bulk.exe

そのあとに、メインプログラムを実行します(計算時間は通常のPCで数秒程度で終わります)。

python3 ../../../../src/py2dmat_main.py input.toml | tee log.txt

実行すると、各ランクのフォルダが作成されます。 以下の様な標準出力がされます。

# parameter
random_max_num_probes = 10
bayes_max_num_probes = 20
score = TS
interval = 5
num_rand_basis = 5000
value_01 =  5.10000
value_02 =  4.90000
R-factor = 0.037237314010261195
0001-th step: f(x) = -0.037237 (action=150)
   current best f(x) = -0.037237 (best action=150)

value_01 =  4.30000
value_02 =  3.50000

  ...

最初に設定したパラメータのリスト、そのあとに各ステップでの候補パラメータと、 その時の R-factor にマイナスが乗算された f(x)``が出力されます。 また、その時点での一番良いスコアを持つグリッドインデックス (``action)とその場合の f(x) と変数が出力されます。 0番の下には更にグリッドのidがついたサブフォルダ Log%%%%% ( %%%%% がグリッドのid)が作成され、ソルバーの出力が保存されます (MeshData.txt に付けられた番号がグリッドのidとして割り振られます)。 最終的に推定されたパラメータは、BayesData.txt に出力されます。

今回の場合は

#step z1 z2 fx z1_action z2_action fx_action
0 5.1 4.9 0.037237314010261195 5.1 4.9 0.037237314010261195
1 5.1 4.9 0.037237314010261195 4.3 3.5 0.06050786306685965
2 5.1 4.9 0.037237314010261195 5.3 3.9 0.06215778000834068
3 5.1 4.9 0.037237314010261195 4.7 4.2 0.049210767760634364
4 5.1 4.9 0.037237314010261195 5.7 3.7 0.08394457854191653
5 5.1 4.9 0.037237314010261195 5.2 5.2 0.05556857782716691
6 5.1 4.9 0.037237314010261195 5.7 4.0 0.0754639895013157
7 5.1 4.9 0.037237314010261195 6.0 4.4 0.054757310814479355
8 5.1 4.9 0.037237314010261195 6.0 4.2 0.06339787375966344
9 5.1 4.9 0.037237314010261195 5.7 5.2 0.05348404677676544
10 5.1 4.7 0.03002813055356341 5.1 4.7 0.03002813055356341
11 5.1 4.7 0.03002813055356341 5.0 4.4 0.03019977423448576
12 5.3 4.5 0.02887504880071686 5.3 4.5 0.02887504880071686
13 5.1 4.5 0.025865346123665988 5.1 4.5 0.025865346123665988
14 5.2 4.4 0.02031077875240244 5.2 4.4 0.02031077875240244
15 5.2 4.4 0.02031077875240244 5.2 4.6 0.023291891689059388
16 5.2 4.4 0.02031077875240244 5.2 4.5 0.02345999725278686
17 5.2 4.4 0.02031077875240244 5.1 4.4 0.022561543431398066
18 5.2 4.4 0.02031077875240244 5.3 4.4 0.02544527153306051
19 5.2 4.4 0.02031077875240244 5.1 4.6 0.02778877135528466
20 5.2 4.3 0.012576357659158034 5.2 4.3 0.012576357659158034
21 5.1 4.2 0.010217361468113488 5.1 4.2 0.010217361468113488
22 5.1 4.2 0.010217361468113488 5.2 4.2 0.013178053637167673
  ...

のように得られます。1列目にステップ数、2列目、3列目、4列目にその時点での最高スコアを与える value_01, value_02R-factor が記載されます。 続けて、そのステップで候補となった value_01, value_02R-factor が記載されます。 今回の場合は21ステップ目で正しい解が得られていることがわかります。

なお、一括計算するスクリプトとして do.sh を用意しています。 do.sh では BayesData.datref_BayesData.dat の差分も比較しています。 以下、説明は割愛しますが、その中身を掲載します。

sh prepare.sh

./bulk.exe

time python3 ../../../../src/py2dmat_main.py input.toml

echo diff BayesData.txt ref_BayesData.txt
res=0
diff BayesData.txt ref_BayesData.txt || res=$?
if [ $res -eq 0 ]; then
  echo TEST PASS
  true
else
  echo TEST FAILED: BayesData.txt.txt and ref_BayesData.txt.txt differ
  false
fi

計算結果の可視化

BayesData.txt を参照することで、何ステップ目のパラメータが最小スコアを与えたかがわかります。 RockingCurve.txt は各ステップ毎にサブフォルダに格納されているので、 minsearch.rst の手順に従い、実験値との比較を行うことが可能です。