データの準備

1. 使用できる機能

  • データファイルをアップロードし、データセットのプレビューを表示してデータが正しく入力されていることをチェックする
  • モデルを構築するために、必要に応じて一部の変数をあらかじめ処理する
  • 基本記述統計量を得て、変数のプロットを描く
  • モデルの従属変数の代わりに生存データオブジェクトを作成する

2. 使用するデータについて (トレーニングセット)

  • データに1つの生存時間変数と、1つの1/0打ち切り変数 および 少なくとも1つの独立変数 (X) が必要です。
  • 列より行の数を多くしてください。
  • 同じ列に文字と数字を混ぜないこと
  • モデルを構築するために使用するデータをトレーニングセットと呼びます。

使用例 1: 右で打ち切った糖尿病データ

ある試験で、糖尿病性網膜症の治療としてレーザー凝固法を使用し、いくつかの観察結果を得ました。各患者の片眼をレーザー治療に無作為化し、 他方の眼には治療を行いませんでした。それぞれの眼について、目的の事象は、治療開始から視力検査結果が2回連続して5/200未満になるまでの時間でした。 このため、観察期間として約6ヵ月間のラグタイム (来院は3ヵ月ごと) が組み込まれます。このデータセットにおける生存時間は、視力を失うまでの実際の時間 (月) から 事象までの最小時間 (6.5ヵ月) を差し引いた時間です。打ち切りステータスは、0= 打ち切り、1 = 視力喪失です。治療:0 = 治療なし、1= レーザー治療年齢は診断時の年齢です。

使用例 2: 左を切り捨て右を打ち切ったNki70データ

100例のリンパ節陽性乳がん患者の無転移生存について調べたいとします。しかし、試験参加時期は参加者間でずれがあります。 データには5つの臨床的リスク因子が含まれています:(1) 径:腫瘍径、(2) N:病変のあるリンパ節の数、(3) ER:エストロゲン受容体の状態、 (4) グレード:腫瘍のグレード、および (5) 年齢:診断時の患者の年齢。また、先行する試験で70の遺伝子の発現状態が無転移生存の予測因子であることがわかりました。 時間変数は、無転移フォローアップ時間 (月) です。打ち切りインジケータ変数:1 = 転移または死亡、0 = 打ち切り

生存時間と独立変数の関連を調べたいとします。

手順にしたがって進むと、アウトプットに解析結果がリアルタイムで出力されます。データの準備ができたら、次のタブでモデルを探します。


Output 1. データの確認

データの確認


1. 数値変数情報リスト


            

2. カテゴリ変数情報リスト


            

Output 2. 記述的結果


1. 数値変数

2. カテゴリ変数


                  
                    
                    結果のダウンロード(カテゴリ変数)
                  
                



                



ヒストグラム: ある範囲の値について各観察の頻度を描き、変数の確率分布を大まかに示す図です。

密度プロット: 変数の分布を示します。


ヒストグラム

ビンの数が0の場合、プロットはデフォルトのビンの数を使用します

密度プロット


ノンパラメトリック・カプラン・マイヤー推定量とログランク検定

カプラン・マイヤー推定量は積極限推定量とも呼ばれ、寿命データから生存関数を推定するために使用します。

ログランク検定は、2標本の生存分布を比較する仮説検定です。ログランク検定では、各事象が観察された時間における2群のハザード関数の推定を比較します。

1. 使用できる機能

  • カプラン・マイヤー生存確率を推定する
  • グループ変数ごとに、カプラン・マイヤー生存曲線、累積事象分布曲線、および累積ハザード曲線を作成する
  • ログランク検定を行って、2群の生存曲線を比較する
  • 対応のあるログランク検定を行って、3群以上の生存曲線を比較する

2. 使用するデータについて

  • データタブで生存データオブジェクトを作成してください。 
  • このモデルではカテゴリ変数が必要です。 

手順にしたがってモデルを構築し、アウトプットをクリックすると解析結果が得られます。


Output 1. データの確認



                

データの全体を確認したい場合、データタブで確認してください


Output 2. フィッティングとテスト結果



グループ別のカプランマイヤー生存確率(Kaplan-Meier Survival Probability)


                



                


説明

これにより、各死亡の重みづけS(t)rhoで、HarringtonとFleming (1982) のG-rhoファミリーが実装されます。上式でSはカプラン・マイヤーの生存推定です。

  • rho = 0:ログランクまたはマンテル・ヘンツェル検定
  • rho = 1:Gehan-Wilcoxon検定のPeto & Peto修正
  • p < 0.05の場合、曲線の生存確率に有意差が示されます
  • p >= 0.05の場合、曲線の生存確率に有意差が示されます

ログランク検定の結果


                  

この例では、2つのレーザー群の間に統計的な差はありませんでした (p = 0.8) 。またカプラン・マイヤー・プロットから、2つのレーザー群の間の生存曲線は互いに交差することがわかりました。


説明

これにより、各死亡の重みづけS(t)rhoで、HarringtonとFleming (1982) のG-rhoファミリーが実装されます。上式でSはカプラン・マイヤーの生存推定です。

  • rho = 0: ログランクまたはマンテル・ヘンツェル検定
  • rho = 1: Gehan-Wilcoxon検定のPeto & Peto修正
  • Bonferroni補正は、一般的であるものの非常に保守的なアプローチです。
  • Bonferroni-Holm補正はそれほど保守的ではなく、一貫してBonferroni法より強力です。
  • BenjaminiとHochbergが開発した偽発見率-BH(False Discovery Rate-BH)他の方法よりも強力です。
  • BenjaminiとYekutieliが開発した偽発見率-BY(False Discovery Rate-BY)他の方法よりも強力です。
  • p < 0.05の場合、曲線の生存確率に有意差が示されます。
  • p >= 0.05の場合、曲線の生存確率に有意差が示されます。

対応のあるログランク検定P値表


セミパラメトリック・コックス回帰

コックス回帰はコックス比例ハザード回帰とも呼ばれ、比例ハザードの仮定が成り立つ場合 (または成り立つと仮定される場合)、ハザード関数を考慮せずに効果のパラメータを推定することが可能です。コックス回帰では、予測変数が生存に与える作用は経時的に一定であり、1つの尺度で相加的であると仮定します。

1. 使用できる機能

  • コックス回帰モデルを構築する
  • (1) 係数の推定、(2) トレーニングデータからの予測、(3) 残差、(4) 調整生存曲線、(5) 比例ハザード検定、および (6) 診断プロットなどのモデルの推定を行う
  • 新しいデータをアップロードし予測を得る
  • 新しい従属変数を含む新たなデータを評価する
  • Brierスコアと時間依存AUCを得る

2. 使用するデータについて (トレーニングセット)

  • データタブでトレーニングデータを作成します。
  • データタブで生存データオブジェクトSurv(time, event) を作成します。
  • 新しいデータ (テストセット) は、モデルに使用するすべての独立変数をカバーしている必要があります。

手順 にしたがってモデルを構築し、アウトプットをクリックすると解析結果が得られます。


Output 1. データの確認



                

データの全体を確認したい場合、データタブで確認してください


Output 2. モデルの結果


説明
  • 変数ごとに、推定された係数 (coef) 、単一変数の有意性に関する統計量、およびP値が表示されます。
  • 'z'のマークがついた列はWald統計量を表示します。これは、各回帰係数とその標準誤差の比に対応します (z = coef/se(coef))。Wald統計では、ある変数のベータ係数と0の間に統計的有意差があるかを評価します。
  • 係数はハザードに関連し、正の係数は予後が悪いこと、負の係数はその変数の予防効果を表します。
  • exp(coef) = ハザード比 (HR)HR = 1:効果なし;HR < 1:ハザードの減少;HR > 1:ハザードの増加
  • またアウトプットに、ハザード比 (exp(coef)) の95%信頼区間の上限と下限が表示されます。
  • 尤度比検定、Wald検定、およびスコアログランク統計からは、モデルのグローバルな統計的有意性がわかります。これらの3種類の方法は、漸近的に等価です。Nが十分に大きいと、同様の結果が得られます。Nが小さいと、いくぶん異なる結果が得られます。標本が小さいときは、挙動がよいため尤度比検定が一般的に好まれます。

                


既存のデータからのフィッティング値および残差


説明
  • 赤池情報量基準 (AIC) は、段階的なモデルの選択に使用します。
  • モデルの適合性はAIC値に従ってランク付けされ、AIC値がもっとも小さいモデルが「最良」と判断されることがあります。

AICに基づいたモデル選択


                


説明
  • このプロットでは、サブポピュレーション/層とは別に、コックスモデルに基づいて計算した、予想される生存曲線を提示します。
  • 層() 要素がない場合には、全母集団の平均である1曲線のみがプロットされます。

コックス回帰からの調整生存曲線


説明
  • シェーンフィールド(Schoenfeld)残差は、比例ハザードの仮定をチェックするために使用します。
  • シェーンフィールド残差は時間から独立しています。時間に対してランダムではないパターンを示すプロットは、PH仮定の違反の証拠です。
  • 各独立変数の検定で統計的有意性がない場合 (p>0.05)、比例ハザードを仮定することができます。


説明

連続独立変数に対するマルチンゲール(Martingale)残差は、非線形性を検出するために一般的に使用される方法です。ある連続共変量について、プロットのパターンによってその変数が正しくフィットしていないことが示唆される場合があります。マルチンゲール残差は、範囲 (-INF, +1) 内の任意の値です。
  • 1に近いマルチンゲール残差は、「予想より早い死亡」を表します。
  • 大きな負の値は、「予想より長い生存」を表します。
逸脱残差(Deviance residual)は、マルチンゲール残差の正規化した変形です。これらの残差は、標準偏差1で0を中心としてほぼ対称に分布していなければなりません。
  • 正の値は、予想される生存時間に比べて「早い死亡」を表します。
  • 負の値は、「予想より長い生存」を表します。
  • 非常に大きな値や非常に小さな値は外れ値で、モデルからは適切に予測できません。
Cox-Snell残差は、生存モデルの全体的な適合度をチェックするために使用できます。
  • Cox-Snell残差は、観察ごとの-log (生存確率) と同じです。
  • モデルがデータに適切に適合している場合、Cox-Snell残差は、平均1の指数分布からの標本のような挙動を示さなければなりません。
  • 残差が単位指数分布からの標本のような挙動を示すときには、45度の斜線にそっていなければなりません。

残差はデータフィッティングのタブにあります。

赤色の点は「予想より早い死亡」、黒色の点は「予想より長い生存」を示します。

1. 連続独立変数に対するマルチンゲール残差プロット

2. 観測IDごとの逸脱残差プロット

3. Cox-Snell残差プロット


Output 3. 予測結果




Brierスコアは、ある時系列で予測される生存関数の正確度(accuracy)を評価するために使用します。このスコアは、観察された生存状態と、予測される生存確率の間の平均平方距離を表し、常に0と1の間で0が最良値です。

統合Brierスコア (IBS) は、データが入手されたすべての時点におけるモデルの性能を全体的に計算します。

デフォルトの設定では、時系列1,2,...10が指定されています。

指定された時点のBrierスコア


説明

ここでのAUCは時間依存AUCで、ある時系列におけるAUCを意味します。
  • Chambless and Diao: lpとlpnewがコックス比例ハザードモデルの予測因子であると仮定しています。 (Chambless, L. E. and G. Diao (2006). Estimation of time-dependent area under the ROC curve for long-term risk prediction. Statistics in Medicine 25, 3474–3486.)
  • Hung and Chiang: 予測因子と、予測因子によって予想される生存時間の間に1対1の関係があると仮定しています。 (Hung, H. and C.-T. Chiang (2010). Estimation methods for time-dependent AUC models with survival data. Canadian Journal of Statistics 38, 8–26.)
  • Song and Zhou: この方法では、打ち切り時間が予測因子の値に依存していても、推定量は有効となります。 (Song, X. and X.-H. Zhou (2008). A semiparametric approach for the covariate specific ROC curve with survival outcome. Statistica Sinica 18, 947–965.)
  • Uno et al.: Inverse Probability of Censoring Weighted法 (確率の逆数を重みにする方法) に基づき、予測因子lpnewを導出するための特定のワーキングモデルを仮定しません。予測因子と、予測因子によって予想される生存時間の間に1対1の関係があると仮定しています。 (Uno, H., T. Cai, L. Tian, and L. J. Wei (2007). Evaluating prediction rules for t-year survivors with censored regression models. Journal of the American Statistical Association 102, 527–537.)
時系列の例: 1, 2, 3, ...,10

指定した時間における時間依存AUC


パラメトリック加速死亡時間モデル (accelerated failure time [AFT]) モデル

加速死亡時間 (accelerated failure time [AFT]) モデル は、共変量の作用がある定数だけ疾患の経過を加速または減速することを仮定するパラメトリック・モデルです。

1. 使用できる機能

  • AFTモデルを構築する
  • パラメータの係数、残差、診断プロットなど、モデルの推定値を得る
  • トレーニングデータから予測されるフィットした値を得る
  • 新しいデータをアップロードし予測を得る
  • 新しい従属変数を含む新たなデータを評価する

2. 使用するデータについて

  • データタブでトレーニングデータを作成してください
  • データタブで生存データオブジェクトSurv(time, event) を作成してください。
  • 新しいデータ (テストセット) は、モデルに使用するすべての独立変数をカバーしている必要があります。

手順にしたがってモデルを構築し、アウトプットをクリックすると解析結果が得られます。


Output 1. データの確認



                

データの全体を確認したい場合、データタブで確認してください


Output 2. モデルの結果



説明
  • 変数ごとに、推定された係数 (値) 、単変数の有意性に関する統計、およびp値が表示されます。
  • 'z'のマークがついた列はWald統計量を表示します。これは、各回帰係数とその標準誤差の比 (z = coef/se(coef)) に対応します。Wald統計では、ある変数のベータ係数と0との間に統計的有意差があるかを評価します。
  • 係数はハザードに関連し、正の係数は予後が悪いこと、負の係数はその変数の予防効果を表します
  • exp(Value) = ハザード比 (HR)HR = 1:効果なし;HR < 1:ハザードの減少;HR > 1:ハザードの増加
  • スケールと対数 (スケール) は、AFTモデルの誤差項における推定されたパラメータです。l
  •  モデルから対数尤度がわかります。最大尤度推定を使用して対数尤度を生成するときには、その対数尤度 (LL) が0に近いほど、モデルの適合度は良好です。
  • 左を切り捨てたデータでは、ここでの時間は終了時と開始時の差です

                


既存のデータからのフィッティング値および残差


説明
  • 赤池情報量基準 (AIC) は、段階的なモデルの選択に使用します。
  • モデルの適合性はAIC値に従ってランク付けされ、AIC値がもっとも小さいモデルが「最良」と判断されることがあります。

AICに基づいたモデル選択


                


説明

連続独立変数に対するマルチンゲール(Martingale)残差は、非線形性を検出するために一般的に使用される方法です。ある連続共変量について、プロットのパターンによってその変数が正しくフィットしていないことが示唆される場合があります。マルチンゲール残差は、範囲 (-INF, +1) 内の任意の値です。
  • 1に近いマルチンゲール残差は、「予想より早い死亡」を表します。
  • 大きな負の値は、「予想より長い生存」を表します。
逸脱残差(Deviance residual)は、マルチンゲール残差の正規化した変形です。これらの残差は、標準偏差1で0を中心としてほぼ対称に分布していなければなりません。
  • 正の値は、予想される生存時間に比べて「早い死亡」を表します。
  • 負の値は、「予想より長い生存」を表します。
  • 非常に大きな値や非常に小さな値は外れ値で、モデルからは適切に予測できません。
Cox-Snell残差は、生存モデルの全体的な適合度をチェックするために使用できます。
  • Cox-Snell残差は、観察ごとの-log (生存確率) と同じです。
  • モデルがデータに適切に適合している場合、Cox-Snell残差は、平均1の指数分布からの標本のような挙動を示さなければなりません。
  • 残差が単位指数分布からの標本のような挙動を示すときには、45度の斜線にそっていなければなりません。

残差はデータフィッティングのタブにあります。

赤色の点は「予想より早い死亡」、黒色の点は「予想より長い生存」を示します。

1. 連続独立変数に対するマルチンゲール残差プロット

2. 観測IDごとの逸脱残差プロット

3. Cox-Snell残差プロット


Output 3. 予測結果




N番目の観察で予測される生存確率