准备数据

1. 功能

  • 上传数据文件时,预览数据集,并检查数据输入的正确性
  • 构建模型时,(根据需要)对一些变量进行预处理
  • 计算基本描述性统计量,绘制变量图

2. 关于数据(训练集)

  • 数据需要全部为数值数据
  • 用于构建模型的数据称为训练集

示例:NKI数据

假设在一项研究中想探讨一些淋巴结阳性乳腺癌患者的无转移生存率。数据包含临床危险因素:(1)年龄:患者诊断时的年龄(岁)和(2)复发时年份; 以及在早期研究中发现对无转移生存期有预后意义的70个基因的基因表达测量。在这个示例中,可创建一个模型,其可以找到年龄、复发的年份和基因表达测量之间的关系。

示例:肝毒性数据

该数据集包含在对照实验中接触无毒、中等毒或严重毒剂量对乙酰氨基酚的大鼠的表达测量和临床测量。

请按照以下步骤输出实时分析结果。准备好数据后,请在接下来的选项卡中找出模型。


准备训练集




上传示例数据

请参考示例数据格式上传数据,上传数据将代替示例数据。

2. 是否将第1行用作列名?

3. 是否将第1列(无重复项)用作行名?

正确的分隔符和引号确保数据输入成功

从此处可以下载示例数据


更改某些变量的类型?








Output 1. 数据确认

数据确认


1. 数值变量表


            

2. 分类变量表


            

Output 2. 描述性结果


1. 数值变量

2. 分类变量


                  
                    
                    下载结果 (分类变量)
                  
                


线性拟合图:粗略表示任意两个数值变量之间的线性关系。 灰色区域为95%置信区间。


3. 更改X轴和Y轴标签


直方图:通过描述某一数值范围内出现的观察值频率,粗略显示一个变量的概率分布。

密度图:显示变量的分布。


直方图

当分箱数为0时,绘图将使用默认分箱数

密度图



主成分回归(PCR)

主成分回归(PCR) 是一种基于主成分分析(PCA)的回归分析技术。其在响应和自变量之间查找最大方差的超平面。

1. 功能

  • 获得相关矩阵和绘图
  • 获得模型的结果
  • 获得因子和载荷结果表
  • 获得2D和3D的因子和载荷分布图
  • 获得预测的因变量
  • 上传新数据并进行预测

2. 关于数据

  • 所有的分析数据都是数值数据.
  • 新数据(测试集)应覆盖模型中使用的所有自变量。

请按照步骤建模,然后单击输出获取分析结果。


模型构建

使用上一个页面(“数据”选项卡)准备数据。


第1步 选择参数建立模型

在NKI数据示例中,时间用作因变量(Y),而TSPYL5 ...等变量都用作自变量。 默认情况下,除Y以外的所有变量都放在X中。 因此,这里需要删除变量Diam和Age。

数据选项卡显示X是20x25矩阵,因此a的最大值是19。如果A = 20,则会发生错误。

这里使用10倍交叉验证来查看训练集和CV/验证集的结果。


第2步 如果数据和模型准备就绪,单击蓝色按钮生成模型结果。





Output 1. 数据确认

数据(一部分)

请在“数据”选项卡中编辑修改数据


Output 2. 模型的结果


说明
  • 给出1成分、2成分、...、n成分的计算结果。
  • “CV”是交叉验证估计值。
  • “adjCV”(对于RMSEP和MSEP)是经偏差校正的交叉验证估计值。
  • R^2等同于拟合值与响应之间的平方相关。训练中所示的R^2为未调整的R^2,而CV中所示的R^2为调整后的R^2。
  • 建议使用高R^2和低MSEP/RSMEP的成分数量。

10倍交叉验证每次都将数据随机拆分成10倍,所以一次刷新后结果不会完全一样。



                  

R^2


                  

预测的均方误差 (MSEP)


                  

预测的均方根误差 (RMSEP)


                  

结果表明,随着A的增加,训练效果更好(R ^ 2较高,MSEP和RMSEP较低)。

然而,CV结果是不同的。 训练集的效果很好,CV很差,可能发生过拟合并且预测性较差。

在此示例中,我们决定根据MSEP和RMSEP选择三个成分(A = 3)。


1. 预测的Y和残差(Y-预测的Y)


系数


说明
  • 此图描绘了两个得分的成分关系,可使用得分图来评估数据结构并检测群集、离群值和趋势。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。

当A >= 2时,选择2个成分显示成分和载荷2D图

在此图中,我绘制了component1和component2的散点图,发现327和332是离群值。


说明
  • 此图显示变量对成分的影响(选择左面板中的成分)。
  • 红色表示负面影响,蓝色表示正面影响。
  • 使用方差累积比例(在方差表中)测定因子解释的方差量。
  • 出于描述的目的,可能只需要解释80%(0.8)的差异。
  • 如果想对数据执行其他分析,可能至少要有90%的方差通过因子解释。


说明
  • 此图叠加了主成分和载荷量(选择左面板中的主成分)。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。
  • 载荷测定哪些成分对每个成分的影响最大。
  • 载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

当A >= 2时,选择2个成分显示成分和载荷2D图


说明
  • 这是2D图的扩展。此图覆盖了3个成分和载荷(在左面板中选择主成分和线段长度)。
  • 该图与2D图具有相同的功能。 跟踪是可以通过单击隐藏的变量。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。
  • 载荷测定哪些成分对每个成分的影响最大。
  • 载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

本图首次加载需要一些时间。

当A >= 3时,选择3个成分显示成分和载荷3D图

跟踪图例


                

预测

请先准备好模型。


第3步 准备测试集


数据: NKI


测试集应覆盖模型中使用的所有自变量。

2. 是否将第1行用作列名?

3. 是否将第1列(无重复项)用作行名?

正确的分隔符和引号确保数据输入成功

从此处可以下载示例数据

第4步 如果模型和新数据准备就绪,单击蓝色按钮生成预测结果。






偏最小二乘回归(PLSR)

偏最小二乘回归(PLSR))是一种回归分析技术,其通过将预测变量和可观测变量投影到一个新的空间来寻找一个线性回归模型。

1. 功能

  • 获得相关矩阵和绘图
  • 获得模型的结果
  • 获得因子和载荷结果表
  • 获得2D和3D的因子和载荷分布图
  • 获得预测的因变量
  • 上传新数据并进行预测

2. 关于数据(训练集)

  • 所有的分析数据都是数值数据
  • 新数据(测试集)应覆盖模型中使用的所有自变量。

请按照步骤建模,然后单击输出获取分析结果。


模型构建

使用上一个页面(“数据”选项卡)准备数据。


第1步 选择参数建立模型

这些算法的结果差别不大。

PLSR可以使用多个因变量来查找Y和X矩阵之间的线性关系。 因此,在此示例中,时间(time),直径(Diam)和年龄(Age)用作因变量,而其他变量是自变量。

我们想找到具有较高预测能力的成分。

在数据选项卡中,我们发现X是20x25的矩阵,因此a的最大值是19。 如果A=20,将发生错误。

在此示例中,我们决定根据MSEP和RMSEP选择三个成分(A=3)。我使用了10倍CV和一个简单而高速的算法。


第2步 如果数据和模型准备就绪,单击蓝色按钮生成模型结果。





Output 1. 数据确认

数据(一部分)

请在“数据”选项卡中编辑修改数据


Output 2. 模型的结果


説明
  • 给出1成分、2成分、...、n成分的计算结果。
  • “CV”是交叉验证估计值。
  • “adjCV”(对于RMSEP和MSEP)是经偏差校正的交叉验证估计值。
  • R^2等同于拟合值与响应之间的平方相关。训练中所示的R^2为未调整的R^2,而CV中所示的R^2为调整后的R^2。
  • 建议使用高R^2和低MSEP/RSMEP的成分数量。

10倍交叉验证每次都将数据随机拆分成10倍,所以一次刷新后结果不会完全一样。



                  

R^2


                  

预测的均方误差 (MSEP)


                  

预测的均方根误差 (RMSEP)


                  

因为我们选择了多个因变量(Y),每个Y的结果分别表示。

R^2优于PCR,因为PLSR从Y和X生成新变量。 Y描述的方差(%)也高于PCR。


Y的预测值


残差(Y-预测的Y)


系数


说明
  • 此图描绘了两个得分的成分关系,可使用得分图来评估数据结构并检测群集、离群值和趋势。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。

当A >= 2时,选择2个成分显示成分和载荷2D图

在此图中,我绘制了component1和component2的散点图,发现327和332是离群值。


说明
  • 此图显示变量对成分的影响(选择左面板中的成分)。
  • 红色表示负面影响,蓝色表示正面影响。
  • 使用方差累积比例(在方差表中)测定因子解释的方差量。
  • 出于描述的目的,可能只需要解释80%(0.8)的差异。
  • 如果想对数据执行其他分析,可能至少要有90%的方差通过因子解释。


说明
  • 此图叠加了成分和载荷量(选择左面板中的主成分)。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。
  • 载荷测定哪些成分对每个成分的影响最大。
  • 载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

当A >= 2时,选择2个成分显示成分和载荷2D图


说明
  • 这是2D图的扩展。此图覆盖了3个成分和载荷(在左面板中选择主成分和线段长度)。
  • 该图与2D图具有相同的功能。 跟踪是可以通过单击隐藏的变量。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。
  • 载荷测定哪些成分对每个成分的影响最大。
  • 载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

本图首次加载需要一些时间。

当A >= 3时,选择3个成分显示成分和载荷3D图

跟踪图例


                

预测

请先准备好模型。


第3步 准备测试集


数据: NKI


测试集应覆盖模型中使用的所有自变量。

2. 是否将第1行用作列名?

3. 是否将第1列(无重复项)用作行名?

正确的分隔符和引号确保数据输入成功

从此处可以下载示例数据

第4步 如果模型和新数据准备就绪,单击蓝色按钮生成预测结果。






稀疏偏最小二乘回归(SPLSR)

稀疏偏最小二乘回归(SPLSR)は、元の予測因子のわずかな線形組み合わせを作成し、良好な予測性能と変数の選択を同時に達成することを目的とした回帰分析法です。

1. 功能

  • 获得相关矩阵和绘图
  • 获得一个模型的结果
  • 获得因子和载荷结果表
  • 获得2D和3D的因子和载荷分布图
  • 获得预测的因变量
  • 上传新数据并进行预测

2. 使用するデータについて (トレーニングセット)

  • 所有的分析数据都是数值数据
  • 新数据(测试集)应覆盖模型中使用的所有自变量。

请按照步骤建模,然后单击输出获取分析结果。


模型构建

使用上一个页面(“数据”选项卡)准备数据。


第1步 选择参数建立模型

稀疏偏最小二乘回归添加了惩罚项,可以进行变量选择。 惩罚项可以选择适合用于预测的变量。 成分基于所选变量而生成。

在NKI数据示例中,时间用作因变量(Y),而TSPYL5 ...等变量都用作自变量。 默认情况下,除Y以外的所有变量都放在X中。 因此,这里需要删除变量Diam和Age。

数据选项卡显示X是20x25矩阵,因此a的最大值是19。如果A = 20,则会发生错误。


第2步 如果数据和模型准备就绪,单击蓝色按钮生成模型结果。





Output 1. 数据确认


从以下范围中选择最佳参数。

交叉验证将根据最小误差选择参数,给出参数选择的建议。


                

请在“数据”选项卡中编辑修改数据


Output 1. 模型的结果



                  


选择的变量


Y的预测值


该图显示了由于选择变量而导致的系数变化。

系数


这是根据所选变量派生的成分

说明
  • 此图描绘了两个得分的成分关系,可使用得分图来评估数据结构并检测群集、离群值和趋势。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。

当A >= 2时,选择2个成分显示成分和载荷2D图

在此图中,我绘制了component1和component2的散点图,发现378是离群值。


是根据所选变量得出的负载

说明
  • 此图显示变量对成分的影响(选择左面板中的成分)。
  • 红色表示负面影响,蓝色表示正面影响。
  • 使用方差累积比例(在方差表中)测定因子解释的方差量。
  • 出于描述的目的,可能只需要解释80%(0.8)的差异。
  • 如果想对数据执行其他分析,可能至少要有90%的方差通过因子解释。


这是根据所选变量得出的负载

说明
  • 此图叠加了主成分和载荷量(选择左面板中的主成分)。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。
  • 载荷测定哪些成分对每个成分的影响最大。
  • 载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

当A >= 2时,选择2个成分显示成分和载荷2D图


説说明
  • 这是2D图的扩展。此图覆盖了3个成分和载荷(在左面板中选择主成分和线段长度)。
  • 该图与2D图具有相同的功能。 跟踪是可以通过单击隐藏的变量。
  • 如果数据遵循正态分布并且不存在离群值,则点在零附近随机分布。
  • 载荷测定哪些成分对每个成分的影响最大。
  • 载荷范围从-1到1。接近-1或1的载荷表示变量对成分的影响很大。接近0的载荷表示变量对成分的影响很小。

本图首次加载需要一些时间。

当A >= 3时,选择3个成分显示成分和载荷3D图

x y z must be different

跟踪图例


                

预测

请先准备好模型。


第3步 准备测试集


数据: NKI


测试集应覆盖模型中使用的所有自变量。

2. 是否将第1行用作列名?

3. 是否将第1列(无重复项)用作行名?

正确的分隔符和引号确保数据输入成功

从此处可以下载示例数据

第4步 如果模型和新数据准备就绪,单击蓝色按钮生成预测结果。





Output. 预测结果