前回に引き続き、以下のサンプルを動かして見ます。
[Create your first experiment in Azure Machine Learning Studio]
http://azure.microsoft.com/ja-jp/documentation/articles/machine-learning-create-experiment/#step-2-pre-process-data
前回の記事は以下のURLページにあります。
Microsoft Azure Machine Learningのサンプルを動かしてみる。「1.Get Data」
http://toshimana.hatenablog.com/entry/2014/08/09/005803
今回は、機械学習処理を実施するための前処理を行います。
1.データがないセルを"?"に置き換える
1-1.検索ボックスに"convert"と入力します。
1-2.候補が表示されます。
1-3.「Convert to Dataset」をexperiment canvasに配置します。
既にexperiment canvasに配置してある「Automobile price data(Raw)」の下に配置しましょう。
1-4.「Automobile price data(Raw)」と「Convert to Dataset」を接続します。
1-4-1.「Automobile price data(Raw)」のoutput port(ボックスの下側にある小丸)にマウスカーソルを合わせます。
1-4-2.ドラッグ&ドロップで「Convert to Dataset」のinput port(ボックスの上側にある小丸)までマウスカーソルを移動します。
1-4-3.「Automobile price data(Raw)」と「Convert to Dataset」が接続されました。
1-5.「Convert to Dataset」ボックスを選択します。
選択状態のボックスは青枠で囲まれます。
画面右側に選択状態のボックスのPropertyが表示されます。
1-6.「Properties」-「Convert to Dataset」-「Action」を"ReplaceValues"に設定します。
1-7.1-6と同様に、「Replace」を"Missing"に、「New Value」を"?"に設定します。
2.「Project Columns」を用意する。
2-1.「Project Columns」をexperiment canvasに配置します。
2-2.「Convert to Data」と「Project Columns」を接続します。
3.処理する列を選択する
3-1.「Project Columns」を選択します。
3-2.「Properties」-「Project Columns」-「Launch column selector」を選択します。
3-3.「select columns」画面が表示されます。
3-4.「Begin With」を"All columns"に設定する。
3-5.次列を"Exclude", "column names"と設定し、入力項に"normalized-losses"と入力する。
3-6.入力項に入力後、Enterを押すと表示が変わります。
3-7.右下のチェックボタンを押します。
3-8.「Properties」-「Project Columns」-「Selected columns」に設定内容が反映されます。
4.列を削除する
4-1.「Missing Values Scrubber」をexperiment canvasに配置します。
4-2.「Project Columns」と「Missing Values Scrubber」を接続します。
4-3.「Missing Values Scrubber」を選択します。
4-4.「Properties」-「Missing Values Scrubber」-「For missing values」を"Remove entire row"に設定します。
5.処理を実行する
5-1.画面下の「Run」ボタンを押します。
5-2.処理が実施されます。
5-3.処理が終了するまで待ちます。
処理が終了すると、画面右上に「Finished running」が表示されます。
6.結果を確認する
6-1.「Missing Values Scrubber」のoutput portにマウスカーソルを合わせます。
6-2.右クリックでメニューを開き、「Visualize」を選択します。
6-3.「Missing Values Scrubber」の処理結果が表示されます。
確認できる処理結果:"normalized-losses"の項目が削除されている。
変更前(Automobile price data(Raw))
変更後(Missing Values Scrubber)
確認できる処理結果:データがないセルの内容が、"?"に変わっている。
変更前(Automobile price data(Raw))
変更後(Missing Values Scrubber)
終わりに
本ページでスクリーンショットを多用しているため、
画像の加工技術がちょっと上がりました。
しかし、画像加工には結構時間が取られます。何とかしたい。