データの準備

1. 使用できる機能

  • データファイルをアップロードし、データセットのプレビューを表示してデータが正しく入力されていることをチェックする
  • モデルを構築するために、必要に応じて一部の変数をあらかじめ処理する
  • 基本記述統計量を得て、変数のプロットを描く

2. 使用するデータについて

  • 列より行の数を多くしてください
  • すべてのデータが数値データである必要あります

使用例1:マウスの遺伝子発現データ

このデータは、食餌に関する実験で使用したマウス20匹から得た遺伝子発現の測定値です。一部のマウスは同じ遺伝子型で、一部の遺伝子変数は相関しています。遺伝子発現データと線形相関を示さない主成分を計算したいとします。

使用例2:化学データ

ある試験で、7種類の薬剤について9種類の化学的属性を測定しました。一部の化学的属性には潜在的な関連がありました。一連の化学的属性の変数の潜在的な関連構造を探索し、変数を絞りたいとします。

手順にしたがって進むと、アウトプットをクリックすると解析結果が得られます。


Output 1. データの確認

データの確認

1. 数値変数情報リスト


              

2. カテゴリ変数情報リスト


              

Output 2. 記述的結果


1. 数値変数

2. カテゴリ変数


                    
                      
                      結果のダウンロード (カテゴリ変数)
                    
                  


線形フィッティングプロット:任意の2つの数値変数間の線形関係を大まかに示します。 灰色の領域は95%の信頼区間です。


3. XとY軸のラベルを変更する


ヒストグラム: ある範囲の値について各観察の頻度を描き、変数の確率分布を大まかに示す図です。

密度プロット: 変数の分布を示します。


ヒストグラムト

ビンの数が0の場合、プロットはデフォルトのビンの数を使用します

密度プロット






                  

主成分分析(PCA)

主成分分析(PCA)は、変数のうち関連する変数を、互いに関連のない主成分と呼ばれる変数にまとめてデータの数を減らす方法です。

1. 使用できる機能

  • 並列分析から成分の数を推定する
  • 相関行列を作成し、プロットを描く
  • 主成分と負荷量の結果を示す表を作成する
  • 主成分と負荷量の分布プロットを2Dと3Dで作成する

2. 使用するデータについて

  • 解析のすべてのデータは数値データである
  • 独立変数の数よりも標本数のほうが多く、行のほうが列よりも多い

手順にしたがって進むと、アウトプットに解析結果がリアルタイムで出力されます。データの準備ができたら、次のタブでモデルを探します。


Output 1. データの確認

データの一部

データタブでデータを編集してください


Output 2. モデルの結果


説明
  • このプロットでは2つの主成分の関係をグラフにします。スコアプロットを使用してデータの構造を評価し、クラスター、外れ値、および傾向を検出することができます。
  • プロット上のデータの群は、データ内に2つ以上の別々の分布があることを示す可能性があります。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。

2. A >=2のとき、2成分を選択して2D負荷量プロットを表示する

PC1とPC2(グループ円なし)のプロットでは、いくつかの外れ値、たとえば11と23を見つけることができました。 ダイエットを選択し、ユークリッド距離にグループサークルを追加すると、ダイエットタイプの円が他の円から分離されていることがわかりす。


説明
  • このプロットは、変数からPCへの寄与度を示します (左側のパネルでPCを選択します)。
  • 赤色は負の効果、青色は正の効果を表しています。
  • 分散の累積割合 (分散表) を使用して、その因子が説明する分散の量を調べることができます。
  • 記述統計の場合は、分散の80% (0.8) が説明できれば十分です。
  • データについて他の解析も行う場合は、分散の90%以上を因子によって説明する必要があります。

Loadings

Variance table


説明
  • このプロット (バイプロット) では、主成分と負荷量を重ねています (左側のパネルでPCを選択します)。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

A >=2のとき、2成分を選択して負荷量の2Dプロットを表示する

PC1とPC2のプロットでは、ACAT2がPC1に対して比較的強い負の効果を持ち、PKD4がPC1に対して強い正の効果を持っていることがわかりました。PC2の場合、THIOLには強いプラスの効果があり、VDRには強いマイナスの効果があります。 結果は負荷量プロットに対応しています


説明
  • これは2Dプロットの拡張です。このプロットでは、3つのPCの成分と負荷量を重ねます (左パネルでPCおよび線分の長さを選択します)。
  • プロットで外れ値を見つけることができます。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します

このプロットの初回ロード時は少し時間がかかります。

A >=3のとき、3成分を選択して負荷量の3Dプロットを表示する

デフォルトでは、3Dプロットの最初の3成分が表示されます。

トレースの凡例


                  

探索的因子分析(EFA)

探索的因子分析(EFA)は、観察された相関する変数の変動を、因子と呼ばれる、より少ない潜在的変数で記述するために使用する統計法です。

1. 使用できる機能

  • 並列分析から成分の数を推定する
  • 相関行列とプロットを作成する
  • 因子と負荷量の結果を示す表を作成する
  • 因子と負荷量の分布プロットを2Dと3Dで作成する

2. 使用するデータについて

  • 解析のすべてのデータは数値データである
  • 独立変数の数よりも標本数のほうが多く、行のほうが列よりも多い

手順にしたがって進むと、アウトプットをクリックすると解析結果が得られます。


Output 1. データの確認

データの一部

データタブでデータを編集してください


Output 2. モデルの結果


説明
  • このプロットでは因子と変数の関係をグラフにします。
  • ウィンドウ内の結果は、因子の十分性に関する統計検定を示します。


                  


説明
  • このプロットでは2因子の関係をグラフにします。スコアプロットを使用してデータの構造を評価し、クラスター、外れ値、および傾向を検出することができます
  • プロット上のデータの群は、データ内に2つ以上の別々の分布があることを示す可能性があります。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。

2. A >=2のとき、2因子を選択して2D負荷量プロットを表示する

ML1とML2のプロットでは、169や208などの外れ値を見つけることができます。これらのポイントはデータタブで削除できます。 タイプを選択し、ユークリッド距離にグループサークルを追加すると、Bグループが多少異なることがわかりました。 ポイントの数が少なすぎるため、すべてのグループに円があるわけではありません


説明
  • このプロットは、変数からPCへの寄与度を示します (左側のパネルで主成分(PC)を選択します)。
  • 赤色は負の効果、青色は正の効果を表しています。
  • 分散の割合 (分散表) を使用して、その因子が説明する分散の量を調べることができます。
  • 記述統計の場合は、分散の80% (0.8) が説明できれば十分です。
  • データについて他の解析も行う場合は、分散の90%以上を因子によって説明する必要があります。

Loadings

Variance table


説明
  • このプロット (バイプロット) では、因子と負荷量を重ねています (左側のパネルでPCを選択します)。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

A >=2のとき、2因子を選択して成分と負荷量の2Dプロットを表示する

ポイント169と208を削除した後、chem2はML2と比較的強い関係があることがわかりました。


説明
  • これは2Dプロットの拡張です。このプロットでは、3つのPCの因子と負荷量を重ねています (左側のパネルでPCおよび線分の長さを選択します)。
  • プロットで外れ値を見つけることができます。
  • データが正規分布に従っていて外れ値がない場合には、点はゼロを中心としてランダムに分布します。
  • 負荷量は、各成分に対して最も効果が大きな変数を特定します。
  • 負荷量の範囲は-1から1です。負荷量が-1または1に近い場合は、その変数が成分に強い影響を与えていることを表します。負荷量が0に近い場合は、その変数が成分にあまり影響を与えていないことを表します。

このプロットの初回ロード時は少し時間がかかります。

A >=3のとき、3因子を選択して負荷量の3Dプロットを表示する

デフォルトでは、3Dプロットの最初の3因子が表示されます。

トレースの凡例