Azure Machine Learning パイプラインを使用した自動機械学習ライフサイクルの例

10月 21, 2021

Azure Machine Learning

1. イメージ
2. パイプラインの作成
3. パイプラインの使用
1. 3.1. Python での実行
2. 3.2. PowerShell での実行

Azure Machine Learning のライフサイクルを実現する Azure Machine Learning パイプラインの利用例について紹介させていただきます。今回紹介するライフサイクルは次の通りです。

ストレージアカウント上の csv ファイル読み込み
自動機械学習を実行
ベストモデルを選択して ACI にデプロイ

イメージ

// ライフサイクルは以下のようなイメージです。これを参考に後述の手順をご確認ください。

パイプラインの作成

以下の図のように、データセットを入力として自動機械学習を実行し、作成されたモデルを登録、ACI Web エンドポイントを作成または更新するパイプラインを作成します。パイプラインの作成は、ノートブックファイルの実行により行います。実行するノートブックファイルと、使用するデータを以下リンクからダウンロードください。

// 上記ファイルを使って以下のような処理を行うパイプラインを作成します。

データの配置

ダウンロードした machineData.csv ファイルを、Azure Machine Learning ワークスペースの既定のストレージアカウントのコンテナー azureml-blobstore-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx (xxx 部分はランダムな英数字) 配下に Datasets フォルダーを作成し、アップロードしておきます。

ノートブックの実行

aml-pipeline-sample_1.ipynb ファイルは、以下の通り Azure Machine Learning Studio の Notebooks のフォルダーにアップロードし、[カーネルを再起動し、すべてのセルを実行する] をクリックします。(実行時に cpu-cluster という名前の STANDARD_DS12_V2 のコンピューティングクラスターが作成されます。既に存在する場合はそのコンピューティングクラスターを使用します。)

パイプラインの公開

実行が終了すると、以下の通りエンドポイントとパイプラインが作成されるため、正常に実行が終了していることを確認して [公開] ボタンをクリックし、任意の名前で実行します。実行後、パイプラインエンドポイントが作成されます。(サンプルでは pipeline_with_automlstep という名前になります。)

// 自動機械学習によって作成されたモデルをデプロイしたリアルタイムエンドポイント

// ノートブックで定義したパイプラインの実行結果 (この画面で [公開] ボタンを押す)

// 外部から呼び出せるように公開されたパイプラインのエンドポイント

パイプラインの使用

公開したパイプラインエンドポイントの REST エンドポイントに対し、POST メソッドで要求を送信するとパイプラインを実行されます。これにより、azureml-blobstore-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx (xxx 部分はランダムな英数字) / Datasets フォルダー配下の machineData.csv ファイルを新しいファイルに変更してパイプラインを実行するだけで、新しいファイルを使用した自動機械学習、モデルの登録、ACI エンドポイントの作成を簡単に行うことが可能になります。

// REST エンドポイントは、公開されたパイプラインの概要ページより確認できます。

REST エンドポイントへの要求送信方法は多種ありますが、後述に Python および PowherShell を使用した実行方法を紹介させていただきます。

Python での実行

下記コードの <公開したパイプラインの REST エンドポイント> を上述の REST エンドポイント URL に置き換えて　Notebook 上から実行するだけで、パイプラインをトリガーすることが可能です。

json 形式で実験名やパイプラインパラメーターを引数として渡すことが可能です。ただし、primary_metric は作りこみは不十分なので、変更する際には aml-pipeline-sample_1.ipynb ファイル側のロジックも含めて変更をご検討ください。

ExperimentName: 実験の名前
model_name: 登録されるモデルの名前
primary_metric: 自動機械学習のプライマリメトリック
aciservice_name: ACI エンドポイントの名前

from azureml.core.authentication import InteractiveLoginAuthentication
import requests

auth = InteractiveLoginAuthentication()
aad_token = auth.get_authentication_header()

response = requests.post("<公開したパイプラインの REST エンドポイント>",
                         headers=aad_token,
                         json={"ExperimentName": "pipeline-cycle-test",
                               "ParameterAssignments": 
                               {"model_name": "automlmodel",
                               "primary_metric": "r2_score",
                               "aciservice_name": "aciservice"}})

PowerShell での実行

下記コマンドの <公開したパイプラインの REST エンドポイント> を上述の REST エンドポイント URL に置き換えて PowerShell コマンドプロンプト上で実行するだけで、パイプラインをトリガーすることが可能です。

$postText で実験名やパイプラインパラメーターを引数として渡すことが可能です。Python での実行と同じように primary_metric を変更する際には aml-pipeline-sample_1.ipynb ファイル側のロジックも含めて変更をご検討ください。

ExperimentName: 実験の名前
model_name: 登録されるモデルの名前
primary_metric: 自動機械学習のプライマリメトリック
aciservice_name: ACI エンドポイントの名前

az login

$aad_token = az account get-access-token
$convert_token = $aad_token | ConvertFrom-Json
$parsed_token = "Bearer "+$convert_token.accessToken

$requestUri = "<公開したパイプラインの REST エンドポイント>"
 
$requestHeader = @{
  'Content-type'='application/json'
  'authorization' = $parsed_token
}
 
$postText =  "{""ExperimentName"": ""pipeline-cycle-test"",""ParameterAssignments"": {""model_name"": ""automlmldel"", ""primary_metric"": ""r2_score"", ""aciservice_name"": ""aciservice""}}"

$postBody = [Text.Encoding]::UTF8.GetBytes($postText)

Invoke-RestMethod -Method POST -Uri $requestUri -Headers $requestHeader -Body $postBody

サービスプリンシパルを使用すると、ワークスペースに対してアクセス権のないユーザーでもパイプラインを実行できるようになります。まず、下記サイトの手順に従いアプリケーションの登録を行い、ワークスペースリソースに “共同作成者 (Contributor)” ロールを付与します。

Authentication in Azure Machine Learning ※ Service Principal Authentication セクションを参照ください。

上述のコマンドのうち 1 行目を以下の通り変更して実行ください。

1	az login --service-principal -u "<アプリケーション (クライアント) ID>" -p "<クライアントシークレット>" --tenant "<ディレクトリ (テナント) ID>"

変更履歴
2021/10/21 created by Mochizuki
2021/11/19 modified by Mochizuki

※ 本記事は「jpmlblog について」の留意事項に準じます。
※ 併せて「ホームページ」および「記事一覧」もご参照いただければ幸いです。

パイプラインライフサイクル

prev： v2 API の有効化に伴う Azure Machine Learning Workspace への影響について next：名前に日本語を含むリソースグループを使用する場合の注意点について