データの準備

ロジスティック回帰は、合格/不合格、勝ち/負け、生存/死亡、健康/病気など、既存の二値のアウトプットについて、特定のクラスまたは事象が生じる確率をモデル化するために使用します。 ロジスティック回帰では、ロジスティック関数を使用して、二値の従属変数をモデル化します。

1. 使用できる機能

  • データファイルをアップロードし、データセットのプレビューを表示してデータが正しく入力されていることをチェックする
  • モデルを構築するために、必要に応じて一部の変数をあらかじめ処理する
  • 基本記述統計量を得て、変数のプロットを描く

2. 使用するデータについて (トレーニングセット)

  • データに1つの二値従属変数 (Y) および 少なくとも1つの独立変数 (X) が含まれている必要あります。
  • 列より行の数を多くしてください。
  • 同じ列に文字と数字を混ぜないこと
  • モデルを構築するために使用するデータをトレーニングセットと呼びます。

使用例

乳がんのデータセットを調べ、疑いのある細胞を良性 (B) または悪性 (M) と分類するモデルを開発したいとします。従属変数は二値アウトカムです (B/M)。(1) モデルを構築して良性と悪性の確率を計算し、患者の病巣が良性であるか悪性であるかを決定し、(2) 二値の従属変数と他の変数の関係を検出する、すなわち、どの変数が従属変数に有意に寄与しているかを検出したいとします。

手順にしたがって進むと、アウトプットに解析結果がリアルタイムで出力されます。データの準備ができたら、次のタブでモデルを探します。


Output 1. データの確認

データの確認

変数タイプ


Output 2. 記述的結果


1. 数値変数

2. カテゴリ変数


ロジットプロット: 任意の2つの数値変数間の関係を大まかに示します。


3. X軸とY軸のラベルを変更する


ヒストグラム: ある範囲の値について各観察の頻度を描き、変数の確率分布を大まかに示す図です。

密度プロット: 変数の分布を示します。


ヒストグラム

ビンの数が0の場合、プロットはデフォルトのビンの数を使用します

密度プロット


ロジスティック回帰

1. 使用できる機能

  • ロジスティック単回帰モデルまたは重回帰モデルを構築する
  • (1) t検定の係数、p値、95% CIの推定値、(2) R2 and adjusted R2、 (3) 回帰における全体の有意性に関するF検定を含む回帰の推定を行う
  • 追加の情報を得る:(1) 予測された従属変数と残差、(2) AICに基づいた変数の選択、(3) ROCプロット、および (4) ROCプロットに関する感度と特異度
  • 新しいデータをアップロードし予測を得る
  • 新しい従属変数を含む新たなデータを評価する

2. 使用するデータについて

  • 従属変数は二値である
  • 前のデータタブでトレーニングセットデータを作成します。
  • 新しいデータ (テストセット) は、モデルに使用するすべての独立変数をカバーしている必要があります。

手順にしたがってモデルを構築し、アウトプットをクリックすると解析結果が得られます。


Output 1. データの確認



                  

データタブでデータを編集してください


Output 2. モデルの結果



説明
  • 左側のアウトプットには、係数の推定値 (95%信頼区間)、1つの変数の有意性に関するT統計量 (t =)、P値 (p =) が表示されています。
  • 右側のアウトプットは、オッズ比 = exp(b) と元の係数の標準誤差を示しています。
  • 各変数のT検定でP < 0.05であれば、この変数がモデルで統計的に有意であることを表します。
  • 観察は標本の数を示します。
  • Akaike Inf. Crit. = AIC = -2 (log likelihood) + 2k; kは変数 + 定数の数; log likelihood:対数尤度


説明
  • 赤池情報量(Akaike Information Criterion (AIC)) は、段階的(Stepwise)なモデルの選択に使用します。
  • モデルの適合性はAIC値に従ってランク付けされ、AIC値がもっとも小さいモデルが「最良」と判断されることがあります。

AICによるモデル選択


                  

説明
  • ROC曲線:受信者動作特性曲線は、分類閾値を変化させ、二値分類系の診断能力をグラフで示すプロットです。
  • ROC曲線は、様々な閾値を設定して真陽性率 (TPR) と偽陽性率 (FPR) をプロットして作成します。
  • 感度 (Sensitivity, 真陽性率とも呼ばれる) は、陽性であることが正しく識別された割合の尺度です。
  • 特異度 (Specificity, 真陰性率とも呼ばれる) は、陰性であることが正しく識別された割合の尺度です。

Output 3. 予測結果



予測された従属変数は1列目に表示されます


このプロットは、新しい従属変数がテストデータに提供されたときに表示されます。

このプロットは、モデルで使用されていない新しいデータに基づいて、予測値と真の値の間のROCプロットを示します。

感度と特異度のテーブル