模拟抽样工具
模拟抽样工具从分布、输入数据或最适合分布的组合中对数据进行参数化采样。如果您不确定分布的参数并且缺少数据,也可以“绘制”数据。
此工具使用 R 工具。转至选项 > 下载预测工具,并登录到 Alteryx 下载和许可门户以安装 R 和 R 工具使用的包。如需了解详情,请参阅 下载和使用预测工具。
连接输入
D 锚点(可选):样本数据。如果要从原始数据或装箱数据中采样,则需要此输入。
S 锚点(可选):模拟数据。如果以前使用过模拟工具,可以将这些工具的数据连接到此输入,以附加数据并获得迭代计数和种子。
配置工具
选择采样机制:蒙特卡罗/简单抽样或拉丁超立方体/分层抽样。对于数据的分层抽样,最大分层大小由所选的区块大小决定。
区块大小:一次要评估的数据的最大大小。这可用于避免 R 的内存处理限制。对于数据的分层抽样,这也是分层的最大大小。
种子:用于抽样的随机种子。如果包含种子字段的数据集连接到 S 输入,则此选项不可用,因为该种子会进行递增并被使用。
迭代次数:要选择的样本数。如果数据集连接到 S 输入,则此选项不可用,因为该数据集的大小决定了迭代次数。
选择采样模式:
参数化采样
对于参数化采样,不要将数据流连接到 D 输入。
输入传出数据的名称:为输出字段指定字段名称。
选择分布方式:从支持的分布列表中选择。这将与参数一起决定所描绘的累积密度/质量函数的图。
输入参数和边界:要定义分布的参数,请使用滑块或上/下箭头调整值或者手动输入值。这将与所选分布一起决定所描绘的累积密度/质量函数的图。您可以选择为分布指定边界。如果指定了边界,则会使用拒绝采样来确保所抽取的样本在下界和上界之间。边界包含在内。
从数据采样
将数据流连接到 D 输入或通过手动输入采样。
更换样例:选择此选项可更换样例。
指定数据类型:选择其中一个数据选项。
原始数据(未装箱):选择要采样的字段,然后选择采样策略(见下文)。
装箱数据:需要一个 ID 字段和一个具有等距装箱的值字段。ID 为等距数字。指定传出数据的名称(输出字段名称)、采样策略(见下文)、装箱数据的 ID 字段以及装箱数据的值字段。
手动输入:通过轮盘小组件手动输入数据。输入传出数据的名称(输出字段名称)和轮盘小组件参数。使用 Lower(下部)、Upper(上部)、Height(高度)和 Num Bins(箱数)选项配置网格大小。在网格中单击,以提供箱的高度。
选择要采样的字段:选择进行数据采样的列。
选择采样策略:选择对数据进行采样的方式。对整行进行采样、每列单独采样或从最佳拟合分布抽样。如果您选择从最佳拟合分布抽样,请选择要拟合数据的分布。
查看输出
将浏览工具连接到输出锚点以查看结果。
D 锚点:数据输出。这是模拟的结果。