Skip to main content

Apache Spark Code Tool Icon Apache Spark 代码工具

Apache Spark 代码工具是一个代码编辑器,可直接创建 Apache Spark 上下文并直接从 Alteryx Designer 执行 Apache Spark 命令。该工具使用 R 编程语言。

如需了解更多信息,请访问 Apache Spark DirectDatabricks 上的 Spache Spark Microsoft Azure HDInsight 中的 Apache Spark

连接到 Apache Spark

选项 1

直接连接到 Apache Spark 群集。

  1. 库内连接工具数据流传入工具拖到画布上。

  2. 选择连接名称下拉箭头,然后选择管理连接

选项 2

或者,直接与 Apache Spark 代码工具连接。

  1. 将 Apache Spark 代码工具拖到画布上。

  2. 数据连接下,选择连接名称下拉箭头,然后选择管理连接

这两种方法都将调出管理库内连接窗口。在管理库内连接中,选择一个数据源。

代码编辑器

建立 Apache Spark Direct 连接后,代码编辑器将激活。使用插入代码在代码编辑器中生成模板函数。

导入库将创建一个导入语句。

import package(导入包)

读取数据将创建一个 readAlteryxData 函数,用于将传入数据作为 Apache SparkSQL DataFrame 返回。

valdataFrame = readAlteryxData(1)

写入数据将创建一个 writeAlteryxData 函数,用于输出 Apache SparkSQL DataFrame。

writeAlteryxData(dataFrame, 1)

日志消息将创建一个 logAlteryxMessage 函数,用于将字符串作为消息写入日志。

logAlteryxMessage("Example message")

日志警告将创建一个 logAlteryxWarning 函数,用于将字符串作为警告写入日志。

logAlteryxWarning("Example warning")

日志错误将创建一个 logAlteryxError 函数,用于将字符串作为错误写入日志。

logAlteryxError("Example error")

导入库将创建一个导入语句。

from module import library(从模块导入库)

读取数据将创建一个 readAlteryxData 函数,用于将传入数据作为 Apache SparkSQL DataFrame 返回。

dataFrame= readAlteryxData(1)

写入数据将创建一个 writeAlteryxData 函数,用于输出 Apache SparkSQL DataFrame。

writeAlteryxData(dataFrame, 1)

日志消息将创建一个 logAlteryxMessage 函数,用于将字符串作为消息写入日志。

logAlteryxMessage("Example message")

日志警告将创建一个 logAlteryxWarning 函数,用于将字符串作为警告写入日志。

logAlteryxWarning("Example warning")

日志错误将创建一个 logAlteryxError 函数,用于将字符串作为错误写入日志。

logAlteryxError("Example error")

导入库将创建一个导入语句。

library(jsonlite)

读取数据将创建一个 readAlteryxData 函数,用于将传入数据作为 Apache SparkSQL DataFrame 返回。

dataFrame<- readAlteryxData(1)

写入数据将创建一个 writeAlteryxData 函数,用于输出 Apache SparkSQL DataFrame。

writeAlteryxData(dataFrame, 1)

日志消息将创建一个 logAlteryxMessage 函数,用于将字符串作为消息写入日志。

logAlteryxMessage("Example message")

日志警告将创建一个 logAlteryxWarning 函数,用于将字符串作为警告写入日志。

logAlteryxWarning("Example warning")

日志错误将创建一个 logAlteryxError 函数,用于将字符串作为错误写入日志。

logAlteryxError("Example error")

导入代码

使用导入代码调入外部创建的代码。

  • 从文件将打开文件资源管理器,方便您找到所需文件。

  • 从 Jupyter Notebook 将打开文件资源管理器,方便您找到所需文件。

  • 从 URL 将提供一个字段,供您键入或粘贴文件位置。

选择齿轮图标可更改代码编辑器的外观。

  • 使用文本大小按钮可增大或减小编辑器中文本的大小。

  • 使用颜色主题可在深色和浅色方案之间切换。

  • 选择长行换行可使长行在代码编辑器窗口中保持可见,而不需要水平滚动。

  • 选择显示行号可查看编辑器的行号。

输出元信息

选择要管理的输出通道元信息。手动更改现有数据的 Apache Spark 数据类型

选择加号图标添加数据行。

  • 输入 Field Name(字段名称)

  • 选择 Apache Spark Data Type(Apache Spark 数据类型)

  • 输入 Size(大小)(以位为单位)。