准备数据

逻辑回归通常用于分类和预测性分析。 逻辑回归根据给定的自变量数据集来估计事件的发生概率,如发生或未发生。 由于结果是一个概率,因此范围在0和1之间。 在逻辑回归中,对概率结果作Logit变换,即发生的概率除以未发生的概率。

1. 功能

  • 上传数据文件时,预览数据集,并检查数据输入的正确性
  • 构建模型时,根据需要,对一些变量进行预处理
  • 计算基本描述性统计量,绘制图表

2. 关于数据

  • 数据需要包括一个二分类因变量(Y) 至少一个自变量(X)
  • 数据的行数必须多于列数
  • 不要在同一列中混用字符和数字
  • 用于构建模型的数据称为训练集
  • 用于预测的数据称为测试集

示例

假设想探讨乳腺癌细胞的分类,并开发一个模型尝试将可疑细胞分为良性(B)或恶性(M)。 因变量是二分类结果(B/M)。 (1)建立一个模型,计算良性或恶性的概率,并测定患者病情是良性还是恶性; (2)找出二元因变量与其他变量之间的关系,即找出哪个变量对因变量有显著的影响。

请参考以下步骤,准备数据。之后在第二个页面中建立模型。



数据确认



变量的类别



1. 数值变量



2. 分类变量





3. 更改X轴和Y轴名称



直方图


当分箱数为0时,绘图将使用默认分箱数。


概率密度函数图


说明
  • 直方图:通过描述某一数值范围内出现的观察值频率,粗略评估给定变量的概率分布
  • 密度图:估计数据的概率密度函数

逻辑回归

1. 功能

  • 建立简单或多元逻辑回归模型
  • 得出回归估计,包括(1)用t检验、p值和95% CI进行系数估计,(2)R2和经调整的R2和(3)F检验进行回归的总体显著性
  • 获得更多信息:(1)预测因变量和残差,(2)基于AIC的变量选择,(3)ROC图,(4)ROC图的敏感性和特异性表
  • 上传新数据,得到预测
  • 对新数据包含新因变量的评价

2. 关于数据

  • 因变量是二分类数据
  • 请在上一个数据页面中准备训练集数据。
  • 新数据(测试集)应覆盖模型中使用的所有自变量。

请参考以下步骤,输出分析结果。


Output 1. 数据确认



                  


请在“数据”页面中编辑修改数据


Output 2. 模型的结果



说明
  • 左边的输出所示为估计系数(95%置信区间),给出了单个变量显著性的T统计量(t =)和P值(p =)
  • 右边的输出所示为优势比(OR值) = exp(b)和原始系数的标准误差
  • 对各变量进行T检验,P<0.05,表明该变量对模型有统计学意义
  • 观测值是指样本的数量。
  • Akaike Inf. Crit. = AIC = -2 (log likelihood) + 2k; k为(变量+常数)的个数 ; loglikelihood:对数似然值




说明
  • 采用Akaike信息准则(AIC)进行逐步(Stepwise)模型选择
  • 模型拟合根据其AIC值秩和,AIC值最低的模型有时被认为是“最佳”模型

采用Akaike信息准则的模型选择


                  


说明
  • ROC曲线:受试者工作特性曲线,是一个图表,阐明二进制分类器系统在其识别阈值变化时的诊断能力
  • ROC曲线通过绘制各种阈值设置下的真阳性率(TPR)与假阳性率(FPR)的关系进行创建
  • 敏感度(Sensitivity, 也称为真阳性率)测量被正确识别的实际阳性比例
  • 特异性(Specificity, 也称为真阴性率)测量被正确识别的实际阴性比例

Output 3. 预测结果



因变量的预测值显示在第一列中


当测试数据中提供新的因变量时,会出现该图。

该图显示了基于模型中未使用的新数据,预测值和真实值之间的ROC图。

感度和特异度表