准备数据

1. 功能

上传数据文件时，预览数据集，并检查数据输入的正确性
构建模型时，（根据需要）对一些变量进行预处理
计算基本描述性统计量，绘制变量图

2. 关于数据（训练集）

数据需要全部为数值数据
用于构建模型的数据称为训练集

示例：NKI数据
假设在一项研究中想探讨一些淋巴结阳性乳腺癌患者的无转移生存率。数据包含临床危险因素：（1）年龄：患者诊断时的年龄（岁）和（2）复发时年份；以及在早期研究中发现对无转移生存期有预后意义的70个基因的基因表达测量。在这个示例中，可创建一个模型，其可以找到年龄、复发的年份和基因表达测量之间的关系。
示例：肝毒性数据
该数据集包含在对照实验中接触无毒、中等毒或严重毒剂量对乙酰氨基酚的大鼠的表达测量和临床测量。

请按照以下步骤，输出实时分析结果。准备好数据后，请在接下来的选项卡中找出模型。

准备训练集

示例数据
数据上传

使用示例数据

上传示例数据

请参考示例数据格式上传数据，上传数据将代替示例数据。

1. 选择CSV/TXT文件

Browse...

2. 是否将第1行用作列名？

Yes

3. 是否将第1列（无重复项）用作行名？

Yes

4. 数据使用了哪种分隔符？

逗号 (,)：CSV文件通常使用此分隔符

一个制表符(->|)：TXT文件通常使用此分隔符

分号 (;)

一个空格(_)

5. 数据使用了哪种引号？

不使用

双引号(")

单引号(')

正确的分隔符和引号确保数据输入成功

从此处可以下载示例数据

是否对数据进行变换？

更改某些变量的类型？

Output 1. 数据确认

数据确认

1. 数值变量表

2. 分类变量表

Output 2. 描述性结果

描述统计量
线性拟合图
直方图和密度分布图
ヒートマップ

1. 数值变量

2. 分类变量

下载结果 (分类变量)

线性拟合图：粗略表示任意两个数值变量之间的线性关系。灰色区域为95%置信区间。

3. 更改X轴和Y轴标签

直方图：通过描述某一数值范围内出现的观察值频率，粗略显示一个变量的概率分布。

密度图：显示变量的分布。

直方图

直方图的分箱数

当分箱数为0时，绘图将使用默认分箱数

密度图

数据scaling?

主成分回归（PCR）

主成分回归（PCR） 是一种基于主成分分析（PCA）的回归分析技术。其在响应和自变量之间查找最大方差的超平面。

1. 功能

获得相关矩阵和绘图
获得模型的结果
获得因子和载荷结果表
获得2D和3D的因子和载荷分布图
获得预测的因变量
上传新数据并进行预测

2. 关于数据

所有的分析数据都是数值数据.
新数据（测试集）应覆盖模型中使用的所有自变量。

请按照步骤建模，然后单击输出获取分析结果。

模型构建

使用上一个页面（“数据”选项卡）准备数据。

第1步选择参数建立模型

3. 有多少新成分？（A<=X的维度）

4. 做交叉验证？

不，使用完整数据

10倍交叉验证

留一交叉验证

数据scaling?

在NKI数据示例中，时间用作因变量（Y），而TSPYL5 ...等变量都用作自变量。默认情况下，除Y以外的所有变量都放在X中。因此，这里需要删除变量Diam和Age。

数据选项卡显示X是20x25矩阵，因此a的最大值是19。如果A = 20，则会发生错误。

这里使用10倍交叉验证来查看训练集和CV/验证集的结果。

第2步如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

Output 1. 数据确认

数据（一部分）

请在“数据”选项卡中编辑修改数据

Output 2. 模型的结果

主成分回归的结果
数据拟合
成分
负载量
成分和载荷的2D图
成分和载荷的3D图

说明

给出1成分、2成分、...、n成分的计算结果。
“CV”是交叉验证估计值。
“adjCV”（对于RMSEP和MSEP）是经偏差校正的交叉验证估计值。
R^2等同于拟合值与响应之间的平方相关。训练中所示的R^2为未调整的R^2，而CV中所示的R^2为调整后的R^2。
建议使用高R^2和低MSEP/RSMEP的成分数量。

10倍交叉验证每次都将数据随机拆分成10倍，所以一次刷新后结果不会完全一样。

R^2

预测的均方误差 (MSEP)

预测的均方根误差 (RMSEP)

结果表明，随着A的增加，训练效果更好（R ^ 2较高，MSEP和RMSEP较低）。

然而，CV结果是不同的。训练集的效果很好，CV很差，可能发生过拟合并且预测性较差。

在此示例中，我们决定根据MSEP和RMSEP选择三个成分（A = 3）。

1. 预测的Y和残差（Y-预测的Y）

系数

说明

此图描绘了两个得分的成分关系，可使用得分图来评估数据结构并检测群集、离群值和趋势。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。

当A >= 2时，选择2个成分显示成分和载荷2D图

1. x轴成分

2. y轴成分

在此图中，我绘制了component1和component2的散点图，发现327和332是离群值。

说明

此图显示变量对成分的影响（选择左面板中的成分）。
红色表示负面影响，蓝色表示正面影响。
使用方差累积比例（在方差表中）测定因子解释的方差量。
出于描述的目的，可能只需要解释80%（0.8）的差异。
如果想对数据执行其他分析，可能至少要有90%的方差通过因子解释。

说明

此图叠加了主成分和载荷量（选择左面板中的主成分）。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。
载荷测定哪些成分对每个成分的影响最大。
载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

当A >= 2时，选择2个成分显示成分和载荷2D图

1. x轴成分

2. y轴成分

说明

这是2D图的扩展。此图覆盖了3个成分和载荷（在左面板中选择主成分和线段长度）。
该图与2D图具有相同的功能。跟踪是可以通过单击隐藏的变量。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。
载荷测定哪些成分对每个成分的影响最大。
载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

本图首次加载需要一些时间。

当A >= 3时，选择3个成分显示成分和载荷3D图

1. x轴成分

2. y轴成分

3. z轴成分

4. （可选）变更线段（line scale）长度

跟踪图例

预测

请先准备好模型。

第3步　准备测试集

示例
数据上传

数据: NKI

测试集应覆盖模型中使用的所有自变量。

1. 选择CSV/TXT文件

Browse...

2. 是否将数据的第1行用作变量名称（列名）？

Yes

3. 是否将数据的第1列用作命名（行名）？

Yes

4. 数据使用了哪种分隔符？

逗号 (,)：CSV文件通常使用此分隔符

一个制表符(->|)：TXT文件通常使用此分隔符

分号 (;)

一个空格(_)

5. 数据使用了哪种引号？

不使用

双引号(")

单引号(')

请注意分隔符和引号是否正确，确保数据输入成功。

点击此处可以下载示例数据

第4步　如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。

Output. 预测结果

测试集数据
因变量预测值
成分预测值

偏最小二乘回归（PLSR）

偏最小二乘回归（PLSR））是一种回归分析技术，其通过将预测变量和可观测变量投影到一个新的空间来寻找一个线性回归模型。

1. 功能

获得相关矩阵和绘图
获得模型的结果
获得因子和载荷结果表
获得2D和3D的因子和载荷分布图
获得预测的因变量
上传新数据并进行预测

2. 关于数据（训练集）

所有的分析数据都是数值数据
新数据（测试集）应覆盖模型中使用的所有自变量。

请按照步骤建模，然后单击输出获取分析结果。

模型构建

使用上一个页面（“数据”选项卡）准备数据。

第1步选择参数建立模型

3. 有多少新成分？（A<=X的维度）

4. 做交叉验证？

不，使用完整数据

10倍交叉验证

留一交叉验证

5. 哪种PLS算法？

SIMPLS：简单快捷

核算法(kernel)

宽核算法(wide kernel)

传统正交分数算法

这些算法的结果差别不大。

数据scaling?

PLSR可以使用多个因变量来查找Y和X矩阵之间的线性关系。因此，在此示例中，时间(time)，直径(Diam)和年龄(Age)用作因变量，而其他变量是自变量。

我们想找到具有较高预测能力的成分。

在数据选项卡中，我们发现X是20x25的矩阵，因此a的最大值是19。如果A=20，将发生错误。

在此示例中，我们决定根据MSEP和RMSEP选择三个成分（A=3）。我使用了10倍CV和一个简单而高速的算法。

第2步如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

Output 1. 数据确认

数据（一部分）

请在“数据”选项卡中编辑修改数据

Output 2. 模型的结果

PLSR的结果
数据拟合
成分
负载量
成分和载荷的2D图
成分和载荷的3D图

説明

给出1成分、2成分、...、n成分的计算结果。
“CV”是交叉验证估计值。
“adjCV”（对于RMSEP和MSEP）是经偏差校正的交叉验证估计值。
R^2等同于拟合值与响应之间的平方相关。训练中所示的R^2为未调整的R^2，而CV中所示的R^2为调整后的R^2。
建议使用高R^2和低MSEP/RSMEP的成分数量。

10倍交叉验证每次都将数据随机拆分成10倍，所以一次刷新后结果不会完全一样。

R^2

预测的均方误差 (MSEP)

预测的均方根误差 (RMSEP)

因为我们选择了多个因变量（Y），每个Y的结果分别表示。

R^2优于PCR，因为PLSR从Y和X生成新变量。 Y描述的方差（％）也高于PCR。

Y的预测值

残差（Y-预测的Y）

系数

说明

此图描绘了两个得分的成分关系，可使用得分图来评估数据结构并检测群集、离群值和趋势。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。

当A >= 2时，选择2个成分显示成分和载荷2D图

1. x轴成分

2. y轴成分

在此图中，我绘制了component1和component2的散点图，发现327和332是离群值。

说明

此图显示变量对成分的影响（选择左面板中的成分）。
红色表示负面影响，蓝色表示正面影响。
使用方差累积比例（在方差表中）测定因子解释的方差量。
出于描述的目的，可能只需要解释80%（0.8）的差异。
如果想对数据执行其他分析，可能至少要有90%的方差通过因子解释。

说明

此图叠加了成分和载荷量（选择左面板中的主成分）。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。
载荷测定哪些成分对每个成分的影响最大。
载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

当A >= 2时，选择2个成分显示成分和载荷2D图

1. x轴成分

2. y轴成分

说明

这是2D图的扩展。此图覆盖了3个成分和载荷（在左面板中选择主成分和线段长度）。
该图与2D图具有相同的功能。跟踪是可以通过单击隐藏的变量。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。
载荷测定哪些成分对每个成分的影响最大。
载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

本图首次加载需要一些时间。

当A >= 3时，选择3个成分显示成分和载荷3D图

1. x轴成分

2. y轴成分

3. z轴成分

4. （可选）变更线段（line scale）长度

跟踪图例

预测

请先准备好模型。

第3步　准备测试集

示例
数据上传

数据: NKI

测试集应覆盖模型中使用的所有自变量。

1. 选择CSV/TXT文件

Browse...

2. 是否将数据的第1行用作变量名称（列名）？

Yes

3. 是否将数据的第1列用作命名（行名）？

Yes

4. 数据使用了哪种分隔符？

逗号 (,)：CSV文件通常使用此分隔符

一个制表符(->|)：TXT文件通常使用此分隔符

分号 (;)

一个空格(_)

5. 数据使用了哪种引号？

不使用

双引号(")

单引号(')

请注意分隔符和引号是否正确，确保数据输入成功。

点击此处可以下载示例数据

第4步　如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。

Output. 预测结果

测试集数据
因变量预测值
成分预测值

稀疏偏最小二乘回归（SPLSR）

稀疏偏最小二乘回归（SPLSR）は、元の予測因子のわずかな線形組み合わせを作成し、良好な予測性能と変数の選択を同時に達成することを目的とした回帰分析法です。

1. 功能

获得相关矩阵和绘图
获得一个模型的结果
获得因子和载荷结果表
获得2D和3D的因子和载荷分布图
获得预测的因变量
上传新数据并进行预测

2. 使用するデータについて (トレーニングセット)

所有的分析数据都是数值数据
新数据（测试集）应覆盖模型中使用的所有自变量。

请按照步骤建模，然后单击输出获取分析结果。

模型构建

使用上一个页面（“数据”选项卡）准备数据。

第1步选择参数建立模型

3. 有多少新成分？（A，选择的数值越大，变量越多）

4. 选择范围的参数（选择的数值越大，变量越少）

5. 哪种PLS算法？

SIMPLS：简单快捷

核算法(kernel)

宽核算法(wide kernel)

传统正交分数算法

数据scaling?

稀疏偏最小二乘回归添加了惩罚项，可以进行变量选择。惩罚项可以选择适合用于预测的变量。成分基于所选变量而生成。

数据选项卡显示X是20x25矩阵，因此a的最大值是19。如果A = 20，则会发生错误。

第2步如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

Output 1. 数据确认

SPLS　交叉验证
数据（一部分）

从以下范围中选择最佳参数。

最大新成分（默认值：1至10）

选择范围的参数（数值越大，选择的变量越少，默认值：0.1至0.9)

交叉验证将根据最小误差选择参数，给出参数选择的建议。

请在“数据”选项卡中编辑修改数据

Output 1. 模型的结果

选择
数据拟合
成分
负载量
成分和载荷的2D图
成分和载荷的3D图

选择的变量

Y的预测值

该图显示了由于选择变量而导致的系数变化。

绘图的因变量（第N个因变量）

系数

这是根据所选变量派生的成分

说明

此图描绘了两个得分的成分关系，可使用得分图来评估数据结构并检测群集、离群值和趋势。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。

当A >= 2时，选择2个成分显示成分和载荷2D图

1. x轴成分

2. y轴成分

在此图中，我绘制了component1和component2的散点图，发现378是离群值。

是根据所选变量得出的负载

说明

此图显示变量对成分的影响（选择左面板中的成分）。
红色表示负面影响，蓝色表示正面影响。
使用方差累积比例（在方差表中）测定因子解释的方差量。
出于描述的目的，可能只需要解释80%（0.8）的差异。
如果想对数据执行其他分析，可能至少要有90%的方差通过因子解释。

这是根据所选变量得出的负载

说明

此图叠加了主成分和载荷量（选择左面板中的主成分）。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。
载荷测定哪些成分对每个成分的影响最大。
载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

当A >= 2时，选择2个成分显示成分和载荷2D图

1. x轴成分

2. y轴成分

説说明

这是2D图的扩展。此图覆盖了3个成分和载荷（在左面板中选择主成分和线段长度）。
该图与2D图具有相同的功能。跟踪是可以通过单击隐藏的变量。
如果数据遵循正态分布并且不存在离群值，则点在零附近随机分布。
载荷测定哪些成分对每个成分的影响最大。
载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

本图首次加载需要一些时间。

当A >= 3时，选择3个成分显示成分和载荷3D图

1. x轴成分

2. y轴成分

3. z轴成分

x y z must be different

4. （可选）变更线段（line scale）长度

跟踪图例

预测

请先准备好模型。

第3步　准备测试集

示例
数据上传

数据: NKI

测试集应覆盖模型中使用的所有自变量。

1. 选择CSV/TXT文件

Browse...

2. 是否将数据的第1行用作变量名称（列名）？

Yes

3. 是否将数据的第1列用作命名（行名）？

Yes

4. 数据使用了哪种分隔符？

逗号 (,)：CSV文件通常使用此分隔符

一个制表符(->|)：TXT文件通常使用此分隔符

分号 (;)

一个空格(_)

5. 数据使用了哪种引号？

不使用

双引号(")

单引号(')

请注意分隔符和引号是否正确，确保数据输入成功。

点击此处可以下载示例数据

第4步　如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。

Output. 预测结果

测试集数据
因变量预测值

准备数据

1. 功能

2. 关于数据（训练集）

示例：NKI数据

示例：肝毒性数据

请按照以下步骤，输出实时分析结果。准备好数据后，请在接下来的选项卡中找出模型。

准备训练集

更改某些变量的类型？

Output 1. 数据确认

Output 2. 描述性结果

主成分回归（PCR）

1. 功能

2. 关于数据

请按照步骤建模，然后单击输出获取分析结果。

模型构建

第1步 选择参数建立模型

第2步 如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

Output 1. 数据确认

Output 2. 模型的结果

预测

第3步 准备测试集

数据: NKI

第4步 如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。

Output. 预测结果

偏最小二乘回归（PLSR）

1. 功能

2. 关于数据（训练集）

请按照步骤建模，然后单击输出获取分析结果。

模型构建

第1步 选择参数建立模型

第2步 如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

Output 1. 数据确认

Output 2. 模型的结果

预测

第3步 准备测试集

数据: NKI

第4步 如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。

Output. 预测结果

稀疏偏最小二乘回归（SPLSR）

1. 功能

2. 使用するデータについて (トレーニングセット)

请按照步骤建模，然后单击输出获取分析结果。

模型构建

第1步 选择参数建立模型

第2步 如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

Output 1. 数据确认

Output 1. 模型的结果

预测

第3步 准备测试集

数据: NKI

第4步 如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。

Output. 预测结果

第1步选择参数建立模型

第2步如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

第3步　准备测试集

第4步　如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。

第1步选择参数建立模型

第2步如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

第3步　准备测试集

第4步　如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。

第1步选择参数建立模型

第2步如果数据和模型准备就绪，单击蓝色按钮生成模型结果。

第3步　准备测试集

第4步　如果模型和新数据准备就绪，单击蓝色按钮生成预测结果。