Apache Spark on Microsoft Azure HDInsight

接続タイプ	REST/HTMLサーバー
検証されたディストリビューション	Microsoft Azure HDInsight
サーバーの詳細	Microsoft Azureの情報については、こちらを参照してください。
サポートのタイプ	インデータベース
検証済み	Spark 2.1、ADLS Gen1ストレージ

接続に使用する Alteryx ツール

インデータベースのワークフロー処理

接続In-DB ツール	データストリーム入力ツール
Apache Sparkコードツール

追加の詳細

[Microsoft Azure HDInsight接続] ウィンドウで、Microsoft Azure HDInsightオプションを使用して、Microsoft Azure HDInsightへの新しい接続を作成します。接続を設定するには、次の手順を使用します。

Microsoft Azure HDInsight接続ウィンドウの設定

Microsoft Azure HDInsightに接続してAlteryx接続文字列を作成するには、次の手順に従います。

新しいIn-DB接続を追加します。Microsoft Azure HDInsight で [データソース] を Apache Spark に設定します。In-DB接続の設定の詳細については、接続In-DBツールを参照してください。
[読み取り] タブで、[ドライバー] が Apache Spark on Microsoft Azure HDInsight に設定されています。[接続文字列] ドロップダウン矢印を選択し、[新しいデータベース接続] を選択します。
[Microsoft Azure HDInsight接続] ウィンドウを設定します。

Microsoft Azure HDInsightの設定

Azure URL.を設定します。
- Microsoft Azure HDInsight接続の Azure URL を入力または貼り付けます。例: https://<clustername>.azurehdinsight.net/
- 接続に関連付けられた ユーザー名 と パスワード を入力します。
- 管理者に連絡して、Microsoft Azure HDInsightクラスターのセットアップ時に設定したクラスター管理者ユーザーのユーザー名とパスワードを確認します。
- お使いのクラスターが使用する Apache Sparkバージョン を選択します。
[テスト] を選択して、接続をテストします。
接続モードをApache Spark Codeツールで使用するコーディング言語に設定します。
Microsoft Azureストレージアカウントに接続します。

Azure ストレージ

接続で使用するストレージ(ADL Gen1ストレージ)の [ストレージURL] を入力します。このURLにはHTTPSプロトコルが必要です。
[テナントID GUID] を入力します。これは、[Microsoft Azure Active Directory] > [プロパティ] > [ディレクトリID] の下のプロパティにあります。
[クライアント ID] を入力します。Microsoft Azureでは、この情報はアプリケーションIDとも呼ばれます。これは、[Microsoft Azure Active Directory] > [アプリの登録] の下のプロパティにあります。詳細については、Microsoftドキュメント > 「Get application ID and authentication key (アプリケーションIDと認証キーを取得する)」のページを参照してください。
[クライアントシークレット] を入力します。Microsoft Azureでは、この情報はアプリケーションIDから認証キー文字列として生成されます。詳細については、「Microsoft Azure Integrating applications with Azure Active Directory (Microsoft Azure: アプリケーションとAzure Active Directoryの統合)」ページを参照してください。

詳細オプション

[ポーリング間隔(ミリ秒)] を設定します。これは、Apache Sparkコード実行要求のための、Alteryxからのチェック間隔です。既定は1,000ミリ秒、または1秒です。
[待機時間(ミリ秒)] を設定します。これは、実行要求が完了するまでAlteryxが待機する時間です。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。既定は60,000 ms、つまり1分です。
Apache Spark設定オプション では、作成されたApache Sparkコンテキストをカスタマイズでき、上級ユーザーは既定のApache Spark設定を上書きできます。

注記

既定で、構成オプションはspark.jars.packagesで値は com.databricks：spark-csv_2.10:1.5.0、com.databricks：spark-avro_2.10:2.0.1です。Apache Sparkのバージョンによっては、既定値の上書きが必要な場合があります。

Apache Sparkバージョン	値
2.0 - 2.1	`com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0`
2.2	`com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0`

設定オプションテーブルに別の行を追加するには、[+] アイコンを選択します。
保存アイコンを選択すると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。
JSONファイルを設定オプションテーブルに読み込むには、開くアイコンを選択します。

[OK] を選択し、Apache Spark on Microsoft Azure HDInsight 接続を作成します。

このセクションの内容: