准备数据

1. 功能

  • 上传数据文件时,预览数据集,并检查数据输入的正确性
  • 构建模型时,(根据需要)对一些变量进行预处理
  • 计算基本描述性统计量,绘制变量图
  • 准备生存对象替代模型中的因变量

2. 关于建模数据(训练集)

  • 数据需要包括一个生存时间变量和一个1/0审查变量 以及 至少一个自变量(X)
  • 数据的行数必须多于列数
  • 不要在同一列中混用字符和数字
  • 用于构建模型的数据称为训练集

示例1: 糖尿病Diabetes数据

假设在一项研究中从激光凝固治疗糖尿病视网膜病变的试验中得到一些观察值。每个患者有一只眼随机接受激光治疗,另一只眼不接受治疗。对于每只眼,侧重事件是从开始治疗到连续两次访视视力下降到5/200以下的时间。因此,存在大约6个月的固有滞后时间(每3个月访视一次)。因此,本数据集中的生存时间为实际致盲时间(以月为单位)减去发生事件的最小可能时间(6.5个月)。 删失状态0 = 已删失;1 = 视力下降。治疗:0 = 无治疗,1 = 激光。年龄是诊断时的年龄

示例2: Nki70数据

假设想探讨100例淋巴结阳性乳腺癌患者的无转移生存率。但有些患者比其他患者入组晚。数据包含5个临床危险因素:(1)Diam:肿瘤的直径;(2)N:受影响的淋巴结数量;(3)ER:雌激素受体状态;(4)分级:肿瘤的分级;(5)年龄:患者诊断时的年龄(岁); 以及在早期研究中发现对无转移生存期有预后意义的70个基因的基因表达测量。时间变量为无转移随访时间(月)。删失指标变量:1 = 转移或死亡;0 = 删失。

探讨生存期与自变量之间的关系。

请参考以下步骤,准备数据。之后在之后的页面中建立模型。


Output 1. 数据确认

数据确认


1. 数值型变量表


              

2. 分类变量表


              

Output 2. 描述性结果


1. 数值变量

2. 分类变量


                    
                      
                      下载结果(分类变量)
                    
                  



                  



直方图


当分箱数为0时,绘图将使用默认分箱数。


概率密度函数图


说明
  • 直方图:通过描述某一数值范围内出现的观察值频率,粗略评估给定变量的概率分布
  • 密度图:估计数据的概率密度函数

非参数Kaplan-Meier估计与对数秩检验

Kaplan-Meier估计量,又称乘积-极限估计量,是一种用于从寿命数据估计生存函数的非参数统计量。

对数秩检验是一种比较两个样本生存分布的假设检验。该方法比较两组在每个观测事件时间的危险函数的估计值。

1. 功能

  • 获得Kaplan-Meier存活率估计
  • 通过各个变量获得Kaplan-Meier生存曲线、累积事件分布曲线和累积危险曲线
  • 进行对数秩检验,比较两组的生存曲线
  • 进行配对对数秩检验,比较三组以上的生存曲线

2. 关于数据

  • 在数据选项卡中准备生存对象 
  • 此模型中需要一个分类变量

请参考以下步骤,准备数据。之后在之后的页面中建立模型。


Output 1. 数据确认



                  

请在“数据”选项卡中编辑修改数据


Output 2. 拟合和预测结果



组别Kaplan-Meier生存概率


                  



                  


说明

在这里,用每次死亡对S(t)rho进行加权。 Harrington和Fleming(1982)开发了G-rho家族。其中S是Kaplan-Meier生存估计。

  • rho = 0:对数秩或Mantel-Haenszel检验
  • rho = 1:Gehan-Wilcoxon检验的Peto&Peto修正
  • p < 0.05表示存活率曲线有显著性差异
  • p >= 0.05表示存活率曲线无显著性差异

对数秩检验结果


                    

在本示例中,没有发现2个激光组之间的统计学差异(P=0.8)。Kaplan-Meier曲线显示,2个激光组的存活曲线相互交叉。


説明

在这里,用每次死亡对S(t)rho进行加权。 Harrington和Fleming(1982)开发了G-rho系列方法。 其中S(t)是Kaplan-Meier生存估计。

  • rho = 0: 对数秩或Mantel-Haenszel检验
  • rho = 1: Gehan-Wilcoxon检验的Peto&Peto修正
  • Bonferroni-Holm校正不如Bonferroni方法保守,比Bonferroni校正更强
  • Bonferroni校正是一种常见但非常保守的方法
  • Benjamini和Hochberg发表的FDR-BH法可以控制伪发现率
  • Benjamini和Yekutieli发表的FDR-BY法可以控制伪发现率
  • P值 < 0.05表示生存率曲线有显著性差异
  • P值 >= 0.05表示生存率曲线无显著性差异

成对对数秩检验P值表


半参数Cox回归

Cox回归,又称Cox比例风险回归,假设比例风险假设成立(或假设成立),则有可能在不考虑风险函数的情况下估计影响参数。 Cox回归假设预测变量对生存率的影响随着时间的推移是恒定的,并且在一个尺度上是累积的。

1. 功能

  • 建立Cox回归模型
  • 获得模型的估计,例如(1)系数的估计,(2)训练数据的预测,(3)残差,(4)调整的生存曲线,(5)比例危险试验,(6)诊断图
  • 上传新数据,得到预测
  • 对新数据包含的新因变量进行评价
  • 获得Brier评分和时间依赖性AUC

2. 关于建模数据(训练集)

  • 请在“数据”选项卡中准备训练数据
  • 请在“数据”选项卡中准备生存对象,生存(时间、事件)
  • 新数据(测试集)应覆盖模型中使用的所有自变量

请参考以下步骤,准备数据。之后在之后的页面中建立模型。


Output 1. 数据确认



                  

请在“数据”选项卡中编辑修改数据


Output 2. 模型的结果


说明
  • 对于每个变量,给出了估计系数(coef)、单个变量的显著性统计量和P值。
  • 标记为“z”的列给出Wald统计值。与各回归系数与其标准误差的比值相对应(z = coef/ se (coef))。Wald统计量评价给定变量的贝塔系数在统计上是否与0有显著差异。
  • 系数与危险有关;正系数表示预后较差,负系数表示与之相关的变量的保护作用。
  • exp(coef) = 危险比(HR)。HR = 1:没有效果;HR<1:危险降低;HR>1:危险增加。
  • 输出还给出了危险比(exp(coef))的上、下95%置信区间。
  • 似然比检验,Wald检验和分数对数秩统计给出了模型的全局统计显著性。这三种方法渐近等价。对于足够大的N,结果会类似。对于小N,可能会有些不同。似然比检验对于小样本量具有更好的行为,因此一般首选。

                  


已知数据的拟合值和残差


说明
  • 采用Akaike信息准则(AIC)进行逐步(Stepwise)模型选择。
  • 模型拟合根据其AIC值秩和,AIC值最低的模型有时被认为是“最佳”模型。

采用Akaike信息准则的模型选择


                  


说明
  • 该图分别给出基于Cox模型计算的亚群/层的期望生存曲线。
  • 如果没有strata()成分,则只绘制一条整个总体均值的曲线。

Cox回归的调整后生存曲线


说明
  • Schoenfeld残差用于检验比例风险假设。
  • Schoenfeld残差与时间无关。一个显示与时间有关的非随机模式的图是违反PH假设的证据。
  • 若各自变量检验不具有统计学意义(P>0.05),则可以假设成比例的危险。


说明

鞅残差(Martingale)是针对连续自变量的检测非线性的常用方法。对于一个给定的连续协变量,图中的模式可能表示该变量不是正确拟合的。鞅残差可以表示(-INF, +1)范围内的任何值:
  • 鞅残差值在1附近表示“死得太快”的个体,
  • 较大的负值对应于“活得太久”的个体。
异常残差(Deviance residual)是鞅残差的归一化变换。这些残差应大致对称地分布在零左右,标准偏差为1。
  • 与预期存活时间相比,正值对应“死得太快”的个体。
  • 负值对应“活得太久”的个体。
  • 很大或很小的值都是离群值,模型预测很差。
Cox-Snell残差用于检验生存模型的总体拟合优度。
  • Cox-Snell残差等于每个观察的-读数(存活率)。
  • 如果模型能很好地拟合数据,Cox-Snell残差应像一个均值为1的指数分布样本。
  • 如果残差的作用类似于单位指数分布的样本,则它们应位于45度对角线上。

残差可以在“数据拟合”选项卡中找到。

红点是那些“不久死亡”的个体;黑点是“长寿”个体。

1. 连续自变量的鞅残差图

2. 观察ID和异常残差图

3. Cox-Snell残差图


Output 3. 预测结果




Brier评分用于评价给定时间序列下预测生存函数的准确性。它表示观察到的生存状态和预测的存活率之间的平均平方距离,并且总是介于0和1之间的数字,0是可能的最佳值。

综合Brier评分(IBS)提供了在所有可用时间对模型性能的总体计算。

默认设置给出时间序列1,2,...10。

给定时间的Brier评分


说明

这里的AUC是时间相关的AUC,给出了给定时间序列下的AUC。
  • Chambless and Diao: 假设lp和lpnew是Cox比例风险模型的预测因子。 (Chambless, L. E. and G. Diao (2006). Estimation of time-dependent area under the ROC curve for long-term risk prediction. Statistics in Medicine 25, 3474–3486.)
  • Hung and Chiang: 假设在预测因子和以预测因子为条件的预期存活时间之间存在一对一的关系。 (Hung, H. and C.-T. Chiang (2010). Estimation methods for time-dependent AUC models with survival data. Canadian Journal of Statistics 38, 8–26.)
  • Song and Zhou: 在该方法中,即使截尾次数依赖于预测量的值,估计量仍然有效。 (Song, X. and X.-H. Zhou (2008). A semiparametric approach for the covariate specific ROC curve with survival outcome. Statistica Sinica 18, 947–965.)
  • Uno et al.: 基于反向删失概率权重,并且没有假设一个特定的工作模型来推导预测因子lpnew。假设在预测因子和以预测因子为条件的预期存活时间之间存在一对一的关系。 (Uno, H., T. Cai, L. Tian, and L. J. Wei (2007). Evaluating prediction rules for t-year survivors with censored regression models. Journal of the American Statistical Association 102, 527–537.)
示例时间序列: 1, 2, 3, ...,10。

给定时间的时间相关AUC


加速失效时间(AFT)模型

加速失效时间(Accelerated Failure Time,AFT)模型 是一个参数模型,其假设一个协变量的作用是以某个常数加速或减速疾病的生命过程。

1. 功能

  • 建立AFT模型
  • 获得模型估计,如参数系数、残差和诊断图
  • 获得从训练数据预测的拟合值
  • 上传新数据,得到预测
  • 对新数据包含的新因变量进行评价

2. 关于数据

  • 在“数据”选项卡中准备训练数据
  • 请在“数据”选项卡中准备生存对象,生存(时间、事件)
  • 新数据(测试集)应覆盖模型中使用的所有自变量。

请参考以下步骤,准备数据。之后在之后的页面中建立模型。


Output 1. 数据确认



                  

请在“数据”选项卡中编辑修改数据


Output 2. 模型的结果



说明
  • 对于每个变量,给出了系数的估计值、单个变量的显著性统计量和P值
  • 标记为“z”的列给出Wald统计量。与各回归系数与其标准差的比值相对应(z = coef/ se (coef))。Wald统计量用来检验系数的估计值在统计上是否与0有显著差异
  • 系数与风险(hazard)有关;正系数表示预后较差,负系数表示与之相关的变量的保护作用
  • exp(系数的估计值) = 风险比(Hazrd Ratio, HR)。HR = 1:没有效果;HR<1:危险降低;HR>1:危险增加
  • Scale和Log(scale)是AFT模型误差项中的估计参数
  •  模型中给出了对数似然。当使用最大似然估生成对数似然时,对数似然估计(LL)越接近于零,模型拟合越好

                  


已知数据的拟合值和残差


说明
  • 采用Akaike信息准则(AIC)进行逐步(Stepwise)模型选择
  • 模型拟合根据其AIC值秩和,AIC值最低的模型通常被认为是“最佳”模型

采用Akaike信息准则的模型选择


                  


说明

鞅残差(Martingale)是针对连续自变量的检测非线性的常用方法。对于一个给定的连续协变量,图中的模式可能表示该变量不是正确拟合的。鞅残差可以表示(-Inf, +1)范围内的任何值:
  • 鞅残差值在1附近表示“过早死亡”的个体
  • 较大的负值对应于“寿命过长”的个体
异常残差(Deviance residual)是鞅残差的归一化变换。这些残差应大致对称地分布在零左右,标准偏差为1
  • 与预期存活时间相比,正值对应“死得太快”的个体
  • 负值对应“活得太久”的个体
  • 很大或很小的值都是离群值,模型预测很差
Cox-Snell残差用于检验生存模型的总体拟合优度
  • Cox-Snell残差等于每个观察的-读数(存活率)
  • 如果模型能很好地拟合数据,Cox-Snell残差应位于45度对角线上

残差可以在“数据拟合”选项卡中找到。

红点是那些“不久死亡”的个体;黑点是“长寿”个体。

1. 连续自变量的鞅残差图

2. 观察ID和异常残差图

3. Cox-Snell残差图


Output 3. 预测结果




第N个观测预测的生存概率