データの準備

1. 使用できる機能

  • データファイルをアップロードし、データセットのプレビューを表示してデータが正しく入力されていることをチェックする
  • モデルを構築するために、必要に応じて一部の変数をあらかじめ処理する
  • 基本記述統計量を得て、変数のプロットを描く

2. 使用するデータについて (トレーニングセット)

  • すべてのデータが数値データである必要あります。
  • モデルを構築するために使用するデータをトレーニングセットと呼びます。

使用例:NKIデータ

ある試験で、何例かのリンパ節陽性乳がん患者について無転移生存を探索的に解析したいとします。データには次の臨床的リスク因子が含まれています:(1) 年齢:診断時の年齢、および (2) 再発までの年数。また、先行する試験で70の遺伝子の発現状態が無転移生存の予測因子であることがわかりました。 この例では、年齢、再発までの年数、および遺伝子発現の間の関連を見つけ出すことができるモデルを作成したいとします。

使用例:肝毒性データ

このデータセットには、対照試験で、非毒性用量、中等度の毒性のある用量、重度の毒性のある用量のアセトアミノフェンに曝露したラットの遺伝子発現状態と臨床状態が含まれています。

手順にしたがって進むと、アウトプットに解析結果がリアルタイムで出力されます。データの準備ができたら、次のタブでモデルを探します。


Output 1. データの確認

データの確認


1. 数値変数情報リスト


              

2. カテゴリ変数情報リスト


              

Output 2. 記述的結果


1. 数値変数

2. カテゴリ変数


                    
                      
                      結果のダウンロード (カテゴリ変数)
                    
                  


線形フィッティングプロット: 任意の2つの数値変数間の線形関係を大まかに示します。 灰色の領域は95%の信頼区間です。


3. XとY軸のラベルを変更する


ヒストグラム: ある範囲の値について各観察の頻度を描き、変数の確率分布を大まかに示す図です。

密度プロット: 変数の分布を示します。


ヒストグラムと密度プロット

ビンの数が0の場合、プロットはデフォルトのビンの数を使用します

密度プロット



主成分回帰(PCR)

主成分回帰(PCR) は、主成分分析 (PCA) に基づいた回帰分析です。主成分回帰では、得られた反応と独立変数の間の最大分散の超平面を見つけます。

1. 使用できる機能

  • 相関行列とプロットを作成する
  • モデルから結果を得る
  • 因子と負荷量の結果を示す表を作成する
  • 因子と負荷量の分布プロットを2Dと3Dで作成する
  • 従属変数を予測する
  • 新しいデータをアップロードし予測を行う

2. 使用するデータについて

  • 解析のすべてのデータは数値データである
  • 新しいデータ (テストセット) は、モデルに使用するすべての独立変数をカバーしている必要があります。

手順にしたがってモデルを構築し、Outputsアウトプットをクリックすると解析結果が得られます。


Output 1. データの確認

データの一部

データタブでデータを編集してください


Output 2. モデルの結果


説明
  • 1成分、2成分、...、n成分からの結果が表示されます。
  • 'CV'はクロスバリデーションの推定値です。
  • 'adjCV' (RMSEPおよびMSEP) はバイアスを補正したクロスバリデーションの推定値です。
  • R^2は、フィットした値と得られた反応の間の相関係数の二乗と同じです。トレーンには調整されていないR^2、CVには調整済みのR^2が表示されます。
  • R^2が高い場合やMSEP/RSMEPが低い場合は成分数を指定することが勧められます。

10-fold クロスバリデーションではデータを毎回ランダムに10個に分割するため、更新後の結果は必ずしも同じにはなりません。



                    

R^2


                    

予測の平均二乗誤差 (MSEP)


                    

予測の平均二乗誤差根 (RMSEP)


                    

結果から、Aの増加に伴い、トレーニングの結果がより良い結果を得ることがわかりました(R ^ 2が高く、MSEPとRMSEPが低い)

ただし、CVの結果は異なっていました。 トレーニングが非常に優れていて、CVが非常に悪いと、過剰適合が発生する可能性があり、予測能力が低いことを示します。

この例では、MSEPとRMSEPに従って、3つの成分(A = 3)を選択することにしました。


1. 予測されたYと残差(Y-予測されたY)


係数


説明
  • このプロットでは2つのスコアから成分の関係をグラフにします。スコアプロットを使用してデータの構造を評価し、クラスター、外れ値、および傾向を検出することができます。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。

A >=2のとき、2成分を選択して2D負荷量プロットを表示する

このプロットでは、component1とcomponent2の散布図をプロットし、327、332が外れ値であることがわかりました。


説明
  • このプロットは、変数からPCへの寄与度を示します (左側のパネルでPCを選択します)。
  • 赤色は負の効果、青色は正の効果を表しています。
  • 分散の累積割合 (分散表) を使用して、その因子が説明する分散の量を調べることができます。
  • 記述統計の場合は、分散の80% (0.8) が説明できれば十分です。
  • データについて他の解析も行う場合は、分散の90%以上を因子によって説明する必要があります。


説明
  • このプロット (バイプロット) では、主成分と負荷量を重ねています (左側のパネルでPCを選択します)。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

A >=2のとき、2成分を選択して負荷量の2Dプロットを表示する


説明
  • これは2Dプロットの拡張です。このプロットでは、3つのPCの成分と負荷量を重ねます (左パネルでPCおよび線分の長さを選択します)。
  • このプロットには、2Dプロットと同様の機能があります。 トレースは、クリックすると非表示にできる変数です。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

このプロットの初回ロード時は少し時間がかかります。

A >=3のとき、3成分を選択して負荷量の3Dプロットを表示する

トレースの凡例


                  


部分的最小二乗回帰 (PLSR)

部分的最小二乗回帰(PLSR)は、予測された変数と観察可能な変数を新しい空間に投影して、線形回帰モデルを見つけ出す回帰分析です。

1. 使用できる機能

  • 相関行列とプロットを作成する
  • モデルから結果を得る
  • 因子と負荷量の結果を示す表を作成する
  • 因子と負荷量の分布プロットを2Dと3Dで作成する
  • 従属変数を予測する
  • 新しいデータをアップロードし予測を行う

2. 使用するデータについて (トレーニングセット)

  • 解析のすべてのデータは数値データである
  • 新しいデータ (テストセット) は、モデルに使用するすべての独立変数をカバーしている必要があります。

手順にしたがってモデルを構築し、アウトプットをクリックすると解析結果が得られます。


Output 1. データの確認

データの一部

データタブでデータを編集してください


Output 2. モデルの結果


説明
  • 1成分、2成分、...、n成分からの結果が表示されます。
  • 'CV'はクロスバリデーションの推定値です。
  • 'adjCV' (RMSEPおよびMSEP) はバイアスを補正したクロスバリデーションの推定値です。
  • R^2は、フィットした値と得られた反応の間の相関係数の二乗と同じです。トレーンには調整されていないR^2、CVには調整済みのR^2が表示されます。
  • R^2が高い場合やMSEP/RSMEPが低い場合は成分数を指定することが勧められます。

10-fold クロスバリデーションではデータを毎回ランダムに10個に分割するため、更新後の結果は必ずしも同じにはなりません。



                    

R^2


                    

予測の平均二乗誤差 (MSEP)


                    

予測の平均二乗誤差根 (RMSEP)


                    

複数の従属変数(Y)を選択したため、結果は各Yによって示されました。

PLSRはYとXの両方から新しい変数を生成するため、R^2はPCRよりも優れています。 Yで説明された分散(%)もPCRよりも高くなっています。


Yの予測値


残差 (Y-Yの予測値)


係数


説明
  • このプロットでは2つのスコアから成分の関係をグラフにします。スコアプロットを使用してデータの構造を評価し、クラスター、外れ値、および傾向を検出することができます。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。

A >=2のとき、2成分を選択して2D負荷量プロットを表示する

このプロットでは、component1とcomponent2の散布図をプロットし、327、332が外れ値であることがわかりました。


説明
  • このプロットは、変数からPCへの寄与度を示します (左側のパネルでPCを選択します)。
  • 赤色は負の効果、青色は正の効果を表しています。
  • 分散の累積割合 (分散表) を使用して、その因子が説明する分散の量を調べることができます。
  • 記述統計の場合は、分散の80% (0.8) が説明できれば十分です。
  • データについて他の解析も行う場合は、分散の90%以上を因子によって説明する必要があります。


説明
  • このプロット (バイプロット) では、主成分と負荷量を重ねています (左側のパネルでPCを選択します)。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

A >=2のとき、2成分を選択して負荷量の2Dプロットを表示する


説明
  • これは2Dプロットの拡張です。このプロットでは、3つのPCの成分と負荷量を重ねます (左パネルでPCおよび線分の長さを選択します)。
  • このプロットには、2Dプロットと同様の機能があります。 トレースは、クリックすると非表示にできる変数です。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

このプロットの初回ロード時は少し時間がかかります

A >=3のとき、3成分を選択して負荷量の3Dプロットを表示する

トレースの凡例


                  


スパース部分的最小二乗回帰(SPLSR)

スパース部分的最小二乗回帰(SPLSR)は、元の予測因子のわずかな線形組み合わせを作成し、良好な予測性能と変数の選択を同時に達成することを目的とした回帰分析法です。

1. 使用できる機能

  • 相関マトリックスとプロットを作成する
  • モデルから結果を得る
  • 因子と負荷量の結果を示す表を作成する
  • 因子と負荷量の分布プロットを2Dと3Dで作成する
  • 従属変数を予測する
  • 新しいデータをアップロードし予測を行う

2. 使用するデータについて (トレーニングセット)

  • 解析のすべてのデータは数値データである
  • 新しいデータ (テストセット) は、モデルに使用するすべての独立変数をカバーしている必要があります。

手順にしたがってモデルを構築し、アウトプットをクリックすると解析結果が得られます。


Output 1. データの確認


次の範囲から最適なパラメータを選択してください。

クロスバリデーションでは最小誤差に従ってパラメータが選択され、パラメータを選択するためのガイドとなります。


                  

データタブでデータを編集してください


Output 1. モデルの結果



                    


選択された変数


Yの予測値


このプロットは、変数を選択するによって係数がどのように変化したかを示しています

係数


これは、選択した変数に基づいて導出された成分です

説明
  • このプロットでは2つのスコアから成分の関係をグラフにします。スコアプロットを使用してデータの構造を評価し、クラスター、外れ値、および傾向を検出することができます。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。

A >=2のとき、2成分を選択して2D負荷量プロットを表示する

このプロットでは、component1とcomponent2の散布図をプロットし、378が外れ値であることがわかりました。


これは、選択した変数に基づいて導出された負荷量です

説明
  • このプロットは、変数からPCへの寄与度を示します (左側のパネルでPCを選択します)。
  • 赤色は負の効果、青色は正の効果を表しています。
  • 分散の累積割合 (分散表) を使用して、その因子が説明する分散の量を調べることができます。
  • 記述統計の場合は、分散の80% (0.8) が説明できれば十分です。
  • データについて他の解析も行う場合は、分散の90%以上を因子によって説明する必要があります。


これは、選択した変数に基づいて導出された負荷量です

説明
  • このプロット (バイプロット) では、主成分と負荷量を重ねています (左側のパネルでPCを選択します)。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

A >=2のとき、2成分を選択して負荷量の2Dプロットを表示する


説明
  • これは2Dプロットの拡張です。このプロットでは、3つのPCの成分と負荷量を重ねます (左パネルでPCおよび線分の長さを選択します)。
  • このプロットには、2Dプロットと同様の機能があります。 トレースは、クリックすると非表示にできる変数です。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

このプロットの初回ロード時は少し時間がかかります

A >=3のとき、3成分を選択して負荷量の3Dプロットを表示する

x y z must be different

トレースの凡例