ベイズ最適化¶
ここでは、ベイズ最適化を行い、回折データから原子座標を解析する方法について説明します。
ベイズ最適化には PHYSBO を用いています。
グリッド探索と同様に、探索グリッドを与えるデータ MeshData.txt を事前に準備する必要があります。
サンプルファイルの場所¶
サンプルファイルは sample/sim-trhepd-rheed/single_beam/bayes にあります。
フォルダには以下のファイルが格納されています。
bulk.txtbulk.exeの入力ファイルexperiment.txt,template.txtメインプログラムでの計算を進めるための参照ファイル
ref_BayesData.txt計算が正しく実行されたか確認するためのファイル(本チュートリアルを行うことで得られる
ColorMap.txtの回答)。input.tomlメインプログラムの入力ファイル
prepare.sh,do.sh本チュートリアルを一括計算するために準備されたスクリプト
以下、これらのファイルについて説明したあと、実際の計算結果を紹介します。
参照ファイルの説明¶
template.txt , experiment.txt については、
前のチュートリアル(Nealder-Mead法による最適化)と同じものを使用します。
ただし、計算を軽くするため value_03 は用いずに 3.5 に固定し、
2次元のグリッド探索を行うように変更してあります。
実際に探索するグリッドは MeshData.txt で与えます。
サンプルでは MeshData.txt の中身は以下のようになっています。
1 3.5 3.5
2 3.6 3.5
3 3.6 3.6
4 3.7 3.5
5 3.7 3.6
6 3.7 3.7
7 3.8 3.5
8 3.8 3.6
9 3.8 3.7
10 3.8 3.8
...
1列目が通し番号、2列目以降は template.txt に入る value_0 , value_1 の値が順に指定されています。
入力ファイルの説明¶
ここでは、メインプログラム用の入力ファイル input.toml について説明します。
input.toml の詳細については入力ファイルに記載されています。
以下は、サンプルファイルにある input.toml の中身になります。
[base]
dimension = 2
[solver]
name = "sim-trhepd-rheed"
[solver.config]
calculated_first_line = 5
calculated_last_line = 74
row_number = 2
[solver.param]
string_list = ["value_01", "value_02" ]
degree_max = 7.0
[solver.reference]
path = "experiment.txt"
first = 1
last = 70
[algorithm]
name = "bayes"
label_list = ["z1", "z2"]
[algorithm.param]
mesh_path = "MeshData.txt"
[algorithm.bayes]
random_max_num_probes = 10
bayes_max_num_probes = 20
最初に [base] セクションについて説明します。
dimensionは最適化したい変数の個数で、今の場合はtemplate.txtで説明したように2つの変数の最適化を行うので、2を指定します。
[solver] セクションではメインプログラムの内部で使用するソルバーとその設定を指定します。
nameは使用したいソルバーの名前で、このチュートリアルでは、sim-trhepd-rheedを用いた解析を行うので、sim-trhepd-rheedを指定します。
ソルバーの設定は、サブセクションの [solver.config], [solver.param], [solver.reference] で行います。
[solver.config] セクションではメインプログラム内部で呼び出す surf.exe により得られた出力ファイルを読み込む際のオプションを指定します。
calculated_first_lineは出力ファイルを読み込む最初の行数を指定します。calculated_last_lineは出力ファイルを読み込む最後の行数を指定します。row_numberは出力ファイルの何列目を読み込むかを指定します。
[solver.param] セクションではメインプログラム内部で呼び出す surf.exe により得られた出力ファイルを読み込む際のオプションを指定します。
string_listは、template.txtで読み込む、動かしたい変数の名前のリストです。label_listは、value_0x(x=1,2) を出力する際につけるラベル名のリストです。degree_maxは、最大角度(度単位)の指定をします。
[solver.reference] セクションでは、実験データの置いてある場所と読みこむ範囲を指定します。
pathは実験データが置いてあるパスを指定します。firstは実験データファイルを読み込む最初の行数を指定します。endは実験データファイルを読み込む最後の行数を指定します。
[algorithm] セクションでは、使用するアルゴリスムとその設定をします。
nameは使用したいアルゴリズムの名前で、このチュートリアルでは、ベイズ最適化による解析を行うので、bayesを指定します。label_listは、value_0x(x=1,2) を出力する際につけるラベル名のリストです。
[algorithm.param] セクションで、探索パラメータを設定します。
mesh_pathはメッシュファイルへのパスを設定します。
[algorithm.bayes] セクションでは、ベイズ最適化のハイパーパラメータを設定します。
random_max_num_probesは、ベイズ最適化を行う前のランダム探索する回数を指定します。bayes_max_num_probesは、ベイズ探索を行う回数を指定します。
その他、入力ファイルで指定可能なパラメータの詳細については入力ファイルの章をご覧ください。
計算実行¶
最初にサンプルファイルが置いてあるフォルダへ移動します(以下、本ソフトウェアをダウンロードしたディレクトリ直下にいることを仮定します).
cd sample/sim-trhepd-rheed/bayes
順問題の時と同様に、 bulk.exe と surf.exe をコピーします。
cp ../../../../../sim-trhepd-rheed/src/TRHEPD/bulk.exe .
cp ../../../../../sim-trhepd-rheed/src/TRHEPD/surf.exe .
最初に bulk.exe を実行し、 bulkP.b を作成します。
./bulk.exe
そのあとに、メインプログラムを実行します(計算時間は通常のPCで数秒程度で終わります)。
python3 ../../../../src/py2dmat_main.py input.toml | tee log.txt
実行すると、各ランクのフォルダが作成されます。 以下の様な標準出力がされます。
# parameter
random_max_num_probes = 10
bayes_max_num_probes = 20
score = TS
interval = 5
num_rand_basis = 5000
value_01 = 5.10000
value_02 = 4.90000
R-factor = 0.037237314010261195
0001-th step: f(x) = -0.037237 (action=150)
current best f(x) = -0.037237 (best action=150)
value_01 = 4.30000
value_02 = 3.50000
...
最初に設定したパラメータのリスト、そのあとに各ステップでの候補パラメータと、
その時の R-factor にマイナスが乗算された f(x)``が出力されます。
また、その時点での一番良いスコアを持つグリッドインデックス (``action)とその場合の f(x) と変数が出力されます。
0番の下には更にグリッドのidがついたサブフォルダ Log%%%%% ( %%%%% がグリッドのid)が作成され、ソルバーの出力が保存されます
(MeshData.txt に付けられた番号がグリッドのidとして割り振られます)。
最終的に推定されたパラメータは、BayesData.txt に出力されます。
今回の場合は
#step z1 z2 fx z1_action z2_action fx_action
0 5.1 4.9 0.037237314010261195 5.1 4.9 0.037237314010261195
1 5.1 4.9 0.037237314010261195 4.3 3.5 0.06050786306685965
2 5.1 4.9 0.037237314010261195 5.3 3.9 0.06215778000834068
3 5.1 4.9 0.037237314010261195 4.7 4.2 0.049210767760634364
4 5.1 4.9 0.037237314010261195 5.7 3.7 0.08394457854191653
5 5.1 4.9 0.037237314010261195 5.2 5.2 0.05556857782716691
6 5.1 4.9 0.037237314010261195 5.7 4.0 0.0754639895013157
7 5.1 4.9 0.037237314010261195 6.0 4.4 0.054757310814479355
8 5.1 4.9 0.037237314010261195 6.0 4.2 0.06339787375966344
9 5.1 4.9 0.037237314010261195 5.7 5.2 0.05348404677676544
10 5.1 4.7 0.03002813055356341 5.1 4.7 0.03002813055356341
11 5.1 4.7 0.03002813055356341 5.0 4.4 0.03019977423448576
12 5.3 4.5 0.02887504880071686 5.3 4.5 0.02887504880071686
13 5.1 4.5 0.025865346123665988 5.1 4.5 0.025865346123665988
14 5.2 4.4 0.02031077875240244 5.2 4.4 0.02031077875240244
15 5.2 4.4 0.02031077875240244 5.2 4.6 0.023291891689059388
16 5.2 4.4 0.02031077875240244 5.2 4.5 0.02345999725278686
17 5.2 4.4 0.02031077875240244 5.1 4.4 0.022561543431398066
18 5.2 4.4 0.02031077875240244 5.3 4.4 0.02544527153306051
19 5.2 4.4 0.02031077875240244 5.1 4.6 0.02778877135528466
20 5.2 4.3 0.012576357659158034 5.2 4.3 0.012576357659158034
21 5.1 4.2 0.010217361468113488 5.1 4.2 0.010217361468113488
22 5.1 4.2 0.010217361468113488 5.2 4.2 0.013178053637167673
...
のように得られます。1列目にステップ数、2列目、3列目、4列目にその時点での最高スコアを与える
value_01, value_02 と R-factor が記載されます。
続けて、そのステップで候補となった value_01, value_02 と R-factor が記載されます。
今回の場合は21ステップ目で正しい解が得られていることがわかります。
なお、一括計算するスクリプトとして do.sh を用意しています。
do.sh では BayesData.dat と ref_BayesData.dat の差分も比較しています。
以下、説明は割愛しますが、その中身を掲載します。
sh prepare.sh
./bulk.exe
time python3 ../../../../src/py2dmat_main.py input.toml
echo diff BayesData.txt ref_BayesData.txt
res=0
diff BayesData.txt ref_BayesData.txt || res=$?
if [ $res -eq 0 ]; then
echo TEST PASS
true
else
echo TEST FAILED: BayesData.txt.txt and ref_BayesData.txt.txt differ
false
fi
計算結果の可視化¶
BayesData.txt を参照することで、何ステップ目のパラメータが最小スコアを与えたかがわかります。
RockingCurve.txt は各ステップ毎にサブフォルダに格納されているので、
minsearch.rst の手順に従い、実験値との比較を行うことが可能です。