Apache Spark no Databricks
Tipo de conexão | Server REST/HTML |
Distribuições validadas em | Databricks |
Detalhes do Server | As informações do Databricks podem ser encontradas aqui . |
Tipo de suporte | No Banco de Dados |
Validado em | Versão de cliente ODBC: 2.6.23.1039 |
Ferramentas do Alteryx usadas para conexão
In-database Workflow Processing
Connect to Apache Spark by dragging a Connect In-DB tool or the Apache Spark Code tool onto the canvas. Create a new Livy connection using the Apache Spark Direct driver. Use the instructions below to configure the connection.
Configurar a janela de conexão do Databricks
Para se conectar ao Databricks e criar uma cadeia de conexão do Alteryx...
Insira o seu ID de conta ou Região .
Para Databricks hospedado na AWS , insira o seu ID de conta do Databricks . Você pode recuperar o ID de conta no console da conta Databricks selecionando a seta para baixo ao lado do seu nome de usuário no canto superior direito.
Para Databricks hospedado no Azure , insira a sua Região . Região é o local do Data Center do Azure. Pode ser fornecida pelo seu administrador do Databricks.
Cole o Token do Databricks que você gerou nas configurações de usuário do Databricks. Os tokens podem expirar e ser revogados.
Clique em Conectar . O Designer exibe uma lista de clusters do Databricks ao quais se conectar. Se a conexão não for bem-sucedida, tente inserir suas credenciais novamente.
Selecione um Cluster do Databricks ao qual se conectar.
Selecione um Tipo de sessão . Selecione um destes, dependendo do código que você está gravando:
Scala
Python
R
Opcionalmente, insira um Nome de execução descritivo para o trabalho para que você possa identificá-lo mais tarde. Os nomes de execução ajudam os usuários a distinguir um trabalho de outro no servidor. O nome é definido por padrão como "Sem título" se deixado em branco.
Defina o Tempo limite em número de minutos. Este é o número de minutos de não atividade antes de o trabalho ser interrompido. Se inserir 15 minutos, o trabalho pode ficar inativo sem qualquer atividade durante 15 minutos antes de ser interrompido. Consulte a Documentação do Databricks para obter mais informações.
Adicione Bibliotecas além do conjunto de bibliotecas que já é fornecido para gravar seu próprio código.
Tipo de arquivo
Descrição
jar
Arquivo Java
egg
Formato de distribuição importável de arquivo único para projetos relacionados ao Python.
PyPi
Python Package Index é um repositório de software para Python.
Maven
Um repositório para arquivos e artefatos.
CRAN
Pacote de arquivos R
Selecione o ícone " + " para adicionar uma linha. Selecione Salvar para salvar as configurações da biblioteca em um arquivo. Use o ícone de pasta de arquivo para localizar um arquivo de configuração salvo. Para excluir uma linha, passe o mouse sobre ela e selecione o ícone de lixeira.
Em Conexão do Databricks , clique em OK .
Em Gerenciar Conexões in-DB , clique em OK para criar uma cadeia de conexão do Alteryx.