Apache Spark on Microsoft Azure HDInsight
接続タイプ | REST/HTMLサーバー |
検証されたディストリビューション | Microsoft Azure HDInsight |
サーバーの詳細 | Microsoft Azureの情報については、こちら を参照してください。 |
サポートのタイプ | インデータベース |
検証済み | Spark 2.1、ADLS Gen1ストレージ |
接続に使用する Alteryx ツール
インデータベースのワークフロー処理
追加の詳細
[Microsoft Azure HDInsight接続] ウィンドウで、Microsoft Azure HDInsightオプションを使用して、Microsoft Azure HDInsightへの新しい接続を作成します。接続を設定するには、次の手順を使用します。
Microsoft Azure HDInsight接続ウィンドウの設定
Microsoft Azure HDInsightに接続してAlteryx接続文字列を作成するには、次の手順に従います。
新しいIn-DB接続を追加します。Microsoft Azure HDInsight で [データソース] を Apache Spark に設定します。In-DB接続の設定の詳細については、接続In-DBツール を参照してください。
[読み取り] タブで、[ドライバー] が Apache Spark on Microsoft Azure HDInsight に設定されています。[接続文字列] ドロップダウン矢印を選択し、[新しいデータベース接続] を選択します。
[Microsoft Azure HDInsight接続] ウィンドウを設定します。
Microsoft Azure HDInsightの設定
Azure URL.を設定します。
Microsoft Azure HDInsight接続の Azure URL を入力または貼り付けます。例: https://<clustername>.azurehdinsight.net/
接続に関連付けられた ユーザー名 と パスワード を入力します。
管理者に連絡して、Microsoft Azure HDInsightクラスターのセットアップ時に設定したクラスター管理者ユーザーのユーザー名とパスワードを確認します。
お使いのクラスターが使用する Apache Sparkバージョン を選択します。
[テスト] を選択して、接続をテストします。
接続モードをApache Spark Codeツールで使用するコーディング言語に設定します。
Microsoft Azureストレージアカウントに接続します。
Azure ストレージ
接続で使用するストレージ(ADL Gen1ストレージ)の [ストレージURL] を入力します。このURLにはHTTPSプロトコルが必要です。
[テナントID GUID] を入力します。これは、[Microsoft Azure Active Directory] > [プロパティ] > [ディレクトリID] の下のプロパティにあります。
[クライアント ID] を入力します。Microsoft Azureでは、この情報はアプリケーションIDとも呼ばれます。これは、[Microsoft Azure Active Directory] > [アプリの登録] の下のプロパティにあります。詳細については、Microsoftドキュメント > 「Get application ID and authentication key (アプリケーションIDと認証キーを取得する)」 のページを参照してください。
[クライアントシークレット] を入力します。Microsoft Azureでは、この情報はアプリケーションIDから認証キー文字列として生成されます。詳細については、「Microsoft Azure Integrating applications with Azure Active Directory (Microsoft Azure: アプリケーションとAzure Active Directoryの統合)」ページを参照してください。
詳細オプション
[ポーリング間隔(ミリ秒)] を設定します。これは、Apache Sparkコード実行要求のための、Alteryxからのチェック間隔です。既定は1,000ミリ秒、または1秒です。
[待機時間(ミリ秒)] を設定します。これは、実行要求が完了するまでAlteryxが待機する時間です。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。既定は60,000 ms、つまり1分です。
Apache Spark設定オプション では、作成されたApache Sparkコンテキストをカスタマイズでき、上級ユーザーは既定のApache Spark設定を上書きできます。
注記
既定で、 構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。Apache Sparkのバージョンによっては、既定値の上書きが必要な場合があります。
Apache Sparkバージョン | 値 |
---|---|
2.0 - 2.1 |
|
2.2 |
|
設定オプションテーブルに別の行を追加するには、[+] アイコンを選択します。
保存アイコンを選択すると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
JSONファイルを設定オプションテーブルに読み込むには、開くアイコンを選択します。
[OK] を選択し、Apache Spark on Microsoft Azure HDInsight 接続を作成します。