Apache Spark on Databricks
接続タイプ | REST/HTMLサーバー |
検証されたディストリビューション | Databricks |
サーバーの詳細 | Databricksの情報については、こちら を参照してください。 |
サポートのタイプ | インデータベース |
検証済み | ODBCクライアントバージョン: 2.6.23.1039 |
接続に使用する Alteryx ツール
インデータベースのワークフロー処理
接続In-DBツールまたはApache Sparkコードツールをキャンバスにドラッグして、Apache Sparkに接続します。Apache Spark Directドライバーを使用して、新しいLivy接続を作成します。接続を設定するには、次の手順を使用します。
Databricks接続ウィンドウの設定
Databricksに接続してAlteryx接続文字列を作成するには、次の手順に従います。
[アカウントID] または [地域] を入力します。
AWS でホストされているDatabricksの場合は、[DatabricksアカウントID] を入力します。DatabricksアカウントコンソールでアカウントIDを取得するには、右上のユーザー名の横にある下向き矢印を選択します。
Azure でホストされているDatabricksの場合は、[地域] を入力します。地域とは、Azureデータセンターの場所です。これは、Databricks管理者が提供できます。
Databricksユーザー設定で生成したDatabricksの トークン を貼り付けます。トークンは有効期限が切れたり、失効したりすることがあります。
接続を選択します。Designerに、接続先のDatabricksクラスターのリストが表示されます。接続に失敗した場合は、資格情報をもう一度入力してみてください。
接続先のDatabricks クラスター を選択します。
[セッションタイプ] を選択します。記述するコードに応じて、次のいずれかを選択します。
Scala
Python
R
必要に応じて、後で分かりやすいように、ジョブを説明する [実行名] を入力します。実行名は、サーバー上のジョブを区別するのに役立ちます。空白のままにすると、既定の名前は「Untitled」になります。
[タイムアウト] を分単位で設定します。これは、アクティビティがない状態が継続するとジョブが停止する時間(分)です。15分と入力した場合、アクティビティがないアイドル状態が15分間継続すると、ジョブがタイムアウトします。詳細については、Databricksのドキュメント を参照してください。
すでに提供されているライブラリのセットに加えて、ライブラリを追加すると、独自のコードを記述できます。
ファイルの種類
説明
jar
Java ARchive
egg
Python関連プロジェクト用の、単一ファイルのインポート可能なディストリビューション形式。
PyPi
Python Package Indexは、Python用のソフトウェアリポジトリです。
Maven
ファイルとアーティファクトのリポジトリ。
CRAN
Rファイルパッケージ
[+] アイコンを選択して、行を追加します。[保存] を選択して、ライブラリの設定をファイルに保存します。[ファイル] フォルダーアイコン を使用して、保存されている設定ファイルを検索します。行を削除するには、その行にカーソルを合わせて、ごみ箱アイコンを選択します。
[Databricks接続] で、[OK] を選択します。
[In-DB接続の管理] で、[OK] を選択し、Alteryx接続文字列を作成します。