Microsoft Azure Machine Learningのサンプルを動かしてみる。「2.Pre-process data」

前回に引き続き、以下のサンプルを動かして見ます。
[Create your first experiment in Azure Machine Learning Studio]
http://azure.microsoft.com/ja-jp/documentation/articles/machine-learning-create-experiment/#step-2-pre-process-data

前回の記事は以下のURLページにあります。
Microsoft Azure Machine Learningのサンプルを動かしてみる。「1.Get Data」
http://toshimana.hatenablog.com/entry/2014/08/09/005803
f:id:toshimana:20140809003009j:plain


今回は、機械学習処理を実施するための前処理を行います。

1.データがないセルを"?"に置き換える

1-1.検索ボックスに"convert"と入力します。

f:id:toshimana:20140811080736j:plain

1-2.候補が表示されます。

f:id:toshimana:20140811080951j:plain

1-3.「Convert to Dataset」をexperiment canvasに配置します。

既にexperiment canvasに配置してある「Automobile price data(Raw)」の下に配置しましょう。
f:id:toshimana:20140811083202j:plain

1-4.「Automobile price data(Raw)」と「Convert to Dataset」を接続します。

1-4-1.「Automobile price data(Raw)」のoutput port(ボックスの下側にある小丸)にマウスカーソルを合わせます。

f:id:toshimana:20140811090325j:plain

1-4-2.ドラッグ&ドロップで「Convert to Dataset」のinput port(ボックスの上側にある小丸)までマウスカーソルを移動します。

f:id:toshimana:20140811090659j:plain

1-4-3.「Automobile price data(Raw)」と「Convert to Dataset」が接続されました。

f:id:toshimana:20140811112943j:plain

1-5.「Convert to Dataset」ボックスを選択します。

選択状態のボックスは青枠で囲まれます。
画面右側に選択状態のボックスのPropertyが表示されます。
f:id:toshimana:20140811113000j:plain

1-6.「Properties」-「Convert to Dataset」-「Action」を"ReplaceValues"に設定します。

f:id:toshimana:20140811091513j:plain

1-7.1-6と同様に、「Replace」を"Missing"に、「New Value」を"?"に設定します。

f:id:toshimana:20140811091707j:plain

2.「Project Columns」を用意する。

2-1.「Project Columns」をexperiment canvasに配置します。

f:id:toshimana:20140811092418j:plain

2-2.「Convert to Data」と「Project Columns」を接続します。

f:id:toshimana:20140811092539j:plain

3.処理する列を選択する

3-1.「Project Columns」を選択します。

f:id:toshimana:20140811093854j:plain

3-2.「Properties」-「Project Columns」-「Launch column selector」を選択します。

f:id:toshimana:20140811093950j:plain

3-3.「select columns」画面が表示されます。

f:id:toshimana:20140811100950j:plain

3-4.「Begin With」を"All columns"に設定する。

f:id:toshimana:20140811101312j:plain

3-5.次列を"Exclude", "column names"と設定し、入力項に"normalized-losses"と入力する。

f:id:toshimana:20140811101756j:plain

3-6.入力項に入力後、Enterを押すと表示が変わります。

f:id:toshimana:20140811102159j:plain

3-7.右下のチェックボタンを押します。

f:id:toshimana:20140811102225j:plain

3-8.「Properties」-「Project Columns」-「Selected columns」に設定内容が反映されます。

f:id:toshimana:20140811102559j:plain

4.列を削除する

4-1.「Missing Values Scrubber」をexperiment canvasに配置します。

f:id:toshimana:20140811103134j:plain

4-2.「Project Columns」と「Missing Values Scrubber」を接続します。

f:id:toshimana:20140811103400j:plain

4-3.「Missing Values Scrubber」を選択します。

f:id:toshimana:20140811103718j:plain

4-4.「Properties」-「Missing Values Scrubber」-「For missing values」を"Remove entire row"に設定します。

f:id:toshimana:20140811113132j:plain

5.処理を実行する

5-1.画面下の「Run」ボタンを押します。

f:id:toshimana:20140811104704j:plain

5-2.処理が実施されます。

f:id:toshimana:20140811105010j:plain

5-3.処理が終了するまで待ちます。

処理が終了すると、画面右上に「Finished running」が表示されます。
f:id:toshimana:20140811105114j:plain

6.結果を確認する

6-1.「Missing Values Scrubber」のoutput portにマウスカーソルを合わせます。

f:id:toshimana:20140811110111j:plain

6-2.右クリックでメニューを開き、「Visualize」を選択します。

f:id:toshimana:20140811110123j:plain

6-3.「Missing Values Scrubber」の処理結果が表示されます。

f:id:toshimana:20140811110240j:plain

確認できる処理結果:"normalized-losses"の項目が削除されている。

変更前(Automobile price data(Raw))

f:id:toshimana:20140811111010j:plain

変更後(Missing Values Scrubber)

f:id:toshimana:20140811111033j:plain

確認できる処理結果:データがないセルの内容が、"?"に変わっている。

変更前(Automobile price data(Raw))

f:id:toshimana:20140811111454j:plain

変更後(Missing Values Scrubber)

f:id:toshimana:20140811111538j:plain

終わりに

本ページでスクリーンショットを多用しているため、
画像の加工技術がちょっと上がりました。
しかし、画像加工には結構時間が取られます。何とかしたい。