データの準備

線形回帰は、従属変数と、1つまたは複数の独立(説明)変数の関係をモデリングする線形のアプローチです。 独立(説明)変数が1つの場合は、(単純)線形回帰と呼ばれます。 独立(説明)変数が2つ以上の場合は、多重線形回帰と呼ばれます。

1. 使用できる機能

  • データファイルをアップロードし、データセットのプレビューを表示してデータが正しく入力されていることをチェックする
  • モデルを構築するために、必要に応じて一部の変数をあらかじめ処理する
  • 基本記述統計量を計算し、変数のプロットを描く

2. 使用するデータについて (トレーニングセット)

  • データに1つの従属変数 (Y) 少なくとも1つの独立変数 (X)が含まれている必要があります。
  • 列より行の数を多くしてください。
  • 同じ列に文字と数字を混ぜないこと
  • モデルを構築するために使用するデータをトレーニングセットと呼びます。

使用例

  • ある試験で、医師が乳児10名の誕生時の体重、年齢 (月齢) 、年齢群 (a = 月齢4ヵ月未満、b = 月齢4か月以上) 、およびSBPを記録しました。 (1) 誕生時の体重を予測し、(2) 誕生時の体重とその他の変数の関係を調べたい、すなわち、どの変数が従属変数に有意に寄与しているかを調べたいとします。

    手順にしたがって進むと、アウトプットに解析結果がリアルタイムで出力されます。データの準備ができたら、次のタブでモデルを構築します。


  • Output 1. データの確認

    データの確認

    変数タイプ


    Output 2. 記述的結果


    1. 数値変数

    2. カテゴリ変数


    線形フィッティングプロット:任意の2つの数値変数で線形の関係を大まかに示します。 灰色の領域は95%信頼区間です。


    3. X軸とY軸のラベルを変更する


    ヒストグラム:ある範囲の値について各観察の頻度を描き、変数の確率分布を大まかに示す図です。

    密度プロット:変数の分布を示します。


    Histogram

    ビンの数が0の場合、プロットはデフォルトのビンの数を使用します

    Density plot


    線形回帰

    1. 使用できる機能

  • モデルを構築する
    • 単回帰線形モデルまたは重回帰線形モデルを構築する
    • (1) t検定の係数、p値、95%CIの推定、(2) R2 and adjusted R2、(3) 回帰における全体の有意性に関するF検定を含む回帰の推定を行う
    • 追加の情報を得る:(1) 予想される従属変数と残差、(2) モデルのANOVA表、(3) AICに基づいた変数の選択、および (4) 残差と、予想される従属変数に基づいた診断プロット
    • 新しいデータをアップロードし予測を得る
    • 新しい従属変数を含む新たなデータを評価する

    2. 使用するデータについて (トレーニングセット)

    • 従属変数は実際の値であり、正規分布の連続変数です。
    • 前のデータタブでトレーニングセットデータを作成します。
    • 新しいデータ (テストセット) は、モデルに使用するすべての独立変数を有している必要があります。

    手順にしたがってモデルを構築し、アウトプットをクリックすると解析結果が得られます。


    Output 1. データの確認


    
                      

    データタブでデータを編集してください


    Output 2. モデルの結果


    説明
    • 各変数の値は推定された係数 (95%信頼区間)、T統計量 (t = )、各変数の有意性に関するP値 (p = ) です。
    • 各変数のT検定でP < 0.05であれば、この変数がモデルで統計的に有意であることを表します。
    • 観察は標本の数を示します。
    • R2 (R2)は線形回帰モデルの適合度を示しており、独立変数が従属変数の分散を集合的に説明する割合を表します。 R2 = 0.49と仮定します。この結果は、従属変数の変動の49%が説明され、残りの51%は説明されていないことを示唆します。
    • 調整 R2 (調整 R2)は、異なる数の独立変数を含む回帰モデルで適合度を比較するために使用します。
    • F統計量 (回帰における全体的な有意性に関するF検定) では、複数の係数を同時にとって判定します。 F=(R^2/(k-1))/(1-R^2)/(n-k);nは標本サイズ、kは変数+定数項の数

    結果

    CSVに保存 LaTexコードを保存


    説明
    • DF変数 = 1
    • DF残差 = [サンプルの数] - [変数の数] -1
    • MS = SS/DF
    • F = MS変数 / MS残差l
    • P Value < 0.05: 変数はモデルにとって有意です.

    ANOVA テーブル


    説明
    • 赤池情報量(Akaike Information Criterion (AIC)) は、段階的(Stepwise)なモデルの選択に使用します。
    • モデルの適合性はAIC値に従ってランク付けされ、AIC値がもっとも小さいモデルが「最良」と判断されることがあります。

    AICによるモデル選択

    
                        
                          
                          TXTに保存
                        
                      

    説明
    • 残差のQ-Q正規プロットは、残差の正規性をチェックします。 ポイントの線形性は、データが正規分布していることを示しています。
    • 残差vsフィッティングプロットは外れ値を見つけます

    1. 残差のQ-Q正規プロット

    2. 残差vsフィッティングプロット


    説明
    • 3D散布図は、従属変数(Y)と2つの独立変数(X1、X2)の関係を示しています。
    • グループ変数は点をグループに分けられています。

    Output 3. 予測結果



    予測された従属変数は1列目に表示されます


    予測 vs 真の従属変数のプロット

    このプロットは、新しい従属変数がテストデータに提供されたときに表示されます。

    このプロットは、予測された従属変数と新しい従属変数の関係を一次平滑化処理で示します。灰色の領域は信頼区間です。