Skip to main content

Apache Spark on Databricks

接続タイプ

REST/HTMLサーバー

検証されたディストリビューション

Databricks

サーバーの詳細

Databricksの情報については、こちら を参照してください。

サポートのタイプ

インデータベース

検証済み

ODBCクライアントバージョン: 2.6.23.1039

接続に使用する Alteryx ツール

インデータベースのワークフロー処理

接続In-DBツールまたはApache Sparkコードツールをキャンバスにドラッグして、Apache Sparkに接続します。Apache Spark Directドライバーを使用して、新しいLivy接続を作成します。接続を設定するには、次の手順を使用します。

Databricks接続ウィンドウの設定

Databricksに接続してAlteryx接続文字列を作成するには、次の手順に従います。

  1. [アカウントID] または [地域] を入力します。

    • AWS でホストされているDatabricksの場合は、[DatabricksアカウントID] を入力します。DatabricksアカウントコンソールでアカウントIDを取得するには、右上のユーザー名の横にある下向き矢印を選択します。

    • Azure でホストされているDatabricksの場合は、[地域] を入力します。地域とは、Azureデータセンターの場所です。これは、Databricks管理者が提供できます。

  2. Databricksユーザー設定で生成したDatabricksの トークン を貼り付けます。トークンは有効期限が切れたり、失効したりすることがあります。

  3. 接続を選択します。Designerに、接続先のDatabricksクラスターのリストが表示されます。接続に失敗した場合は、資格情報をもう一度入力してみてください。

  4. 接続先のDatabricks クラスター を選択します。

  5. [セッションタイプ] を選択します。記述するコードに応じて、次のいずれかを選択します。

    • Scala

    • Python

    • R

  6. 必要に応じて、後で分かりやすいように、ジョブを説明する [実行] を入力します。実行名は、サーバー上のジョブを区別するのに役立ちます。空白のままにすると、既定の名前は「Untitled」になります。

  7. [タイムアウト] を分単位で設定します。これは、アクティビティがない状態が継続するとジョブが停止する時間(分)です。15分と入力した場合、アクティビティがないアイドル状態が15分間継続すると、ジョブがタイムアウトします。詳細については、Databricksのドキュメント を参照してください。

  8. すでに提供されているライブラリのセットに加えて、ライブラリを追加すると、独自のコードを記述できます。

    ファイルの種類

    説明

    jar

    Java ARchive

    egg

    Python関連プロジェクト用の、単一ファイルのインポート可能なディストリビューション形式。

    PyPi

    Python Package Indexは、Python用のソフトウェアリポジトリです。

    Maven

    ファイルとアーティファクトのリポジトリ。

    CRAN

    Rファイルパッケージ

    [+] アイコンを選択して、行を追加します。[保存] を選択して、ライブラリの設定をファイルに保存します。[ファイル] フォルダーアイコン を使用して、保存されている設定ファイルを検索します。行を削除するには、その行にカーソルを合わせて、ごみ箱アイコンを選択します。

  9. [Databricks接続] で、[OK] を選択します。

  10. [In-DB接続の管理] で、[OK] を選択し、Alteryx接続文字列を作成します。