Skip to main content

Apache Spark on Microsoft Azure HDInsight

接続タイプ

REST/HTMLサーバー

検証されたディストリビューション

Microsoft Azure HDInsight

サーバーの詳細

Microsoft Azureの情報については、こちら を参照してください。

サポートのタイプ

インデータベース

検証済み

Spark 2.1、ADLS Gen1ストレージ

接続に使用する Alteryx ツール

インデータベースのワークフロー処理

追加の詳細

[Microsoft Azure HDInsight接続] ウィンドウで、Microsoft Azure HDInsightオプションを使用して、Microsoft Azure HDInsightへの新しい接続を作成します。接続を設定するには、次の手順を使用します。

Microsoft Azure HDInsight接続ウィンドウの設定

Microsoft Azure HDInsightに接続してAlteryx接続文字列を作成するには、次の手順に従います。

  • 新しいIn-DB接続を追加します。Microsoft Azure HDInsight で [データソース] を Apache Spark に設定します。In-DB接続の設定の詳細については、接続In-DBツール を参照してください。

  • [読み取り] タブで、[ドライバー] が Apache Spark on Microsoft Azure HDInsight に設定されています。[接続文字列] ドロップダウン矢印を選択し、[新しいデータベース接続] を選択します。

  • [Microsoft Azure HDInsight接続] ウィンドウを設定します。

Microsoft Azure HDInsightの設定

  • Azure URL.を設定します。

    • Microsoft Azure HDInsight接続の Azure URL を入力または貼り付けます。例: https://<clustername>.azurehdinsight.net/

    • 接続に関連付けられた ユーザー名パスワード を入力します。

    • 管理者に連絡して、Microsoft Azure HDInsightクラスターのセットアップ時に設定したクラスター管理者ユーザーのユーザー名とパスワードを確認します。

    • お使いのクラスターが使用する Apache Sparkバージョン を選択します。

  • [テスト] を選択して、接続をテストします。

  • 接続モードをApache Spark Codeツールで使用するコーディング言語に設定します。

  • Microsoft Azureストレージアカウントに接続します。

Azure ストレージ
詳細オプション
  • [ポーリング間隔(ミリ秒)] を設定します。これは、Apache Sparkコード実行要求のための、Alteryxからのチェック間隔です。既定は1,000ミリ秒、または1秒です。

  • [待機時間(ミリ秒)] を設定します。これは、実行要求が完了するまでAlteryxが待機する時間です。設定された待機時間より時間が長くかかると、タイムアウトエラーが発生します。既定は60,000 ms、つまり1分です。

  • Apache Spark設定オプション では、作成されたApache Sparkコンテキストをカスタマイズでき、上級ユーザーは既定のApache Spark設定を上書きできます。

注記

既定で、 構成オプションはspark.jars.packagesで 値 は com.databricks:spark-csv_2.10:1.5.0、com.databricks:spark-avro_2.10:2.0.1です。Apache Sparkのバージョンによっては、既定値の上書きが必要な場合があります。

Apache Sparkバージョン

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • 設定オプションテーブルに別の行を追加するには、[+] アイコンを選択します。

  • 保存アイコンを選択すると、現在の詳細設定がJSONファイルとして保存されます。ファイルは、別の接続の詳細設定にロードできます。

  • JSONファイルを設定オプションテーブルに読み込むには、開くアイコンを選択します。

[OK] を選択し、Apache Spark on Microsoft Azure HDInsight 接続を作成します。