どんな時に使うの?
2群の数量データに双方向の関連があるか調べる
相関は、名前の通り「相互に関連があること」を示すものです。
例えば、「学童期から青年期の人口における年齢と身長」について考えてみましょう。年齢が増えれば増えるほど身長は高くなっていることが想像できます。反対に、身長が高い人の多くは高学年でしょう。このように、片方が増えるともう片方も比例して増えるような関係を、「正の相関」と言います。
もう一例、「気温と積雪量」について考えてみましょう。気温が上がると、雪は解けますので積雪量は減ります。反対に、積雪量が増えると気温は低いはずです。このような関係は「負の相関」といいます。
散布図は相関を見えやすくしたもの
先ほど文章で伝えた「正の相関」と「負の相関」をグラフで見てみましょう。
左の2つは、縦軸に身長、横軸に年齢を取っていると考えてください。
一本の右肩上がりの直線の近くにデータが集まれば集まるほど、「強く正の相関している」と表現します(一番右のグラフ)。データの配置が右肩上がりなのは間違いないけれど、直線に近くはない場合は「弱く正の相関している」というわけです(右から二番目のグラフ)。
また、真ん中の様にデータの配置が直線的でない場合は「相関なし」となります。
ピアソン?スピアーマン?相関にも種類がある
t検定の時に、正規分布のお話をしました。
相関も、正規分布する場合(パラメトリック)と、しない場合(ノンパラメトリック)で種類が異なります。
正規分布する場合に行う相関をピアソンの相関係数、しない場合の相関をスピアーマンの相関係数(サンプルサイズが19以下の場合はケンドールの相関係数)といいます。
JMPを用いたピアソンの相関係数
① データをセットする
【ファイル】→【開く】でexcelのデータファイルを選択する
② ワークシートを選択する
【ワークシート】の選択→【読み込み】でワークシートを選択する
③ 正規性を確認する
【分析】→【一変量の分布】を押す
【列の選択】から正規性を調べる群を選択→【Y, 列】→【OK】を押す
キーボードの[ctrl]を押しながら【▼】→【連続分布のあてはめ】→【正規のあてはめ】を押す
キーボードの[ctrl]を押しながら【▼】→【適合度】を押す
Shapiro-WilkのP値 (サンプルサイズが2001以上の時はKolmogorov-Smirnov Lilleforsと表記が変化) が0.05以上の時に正規性が認められる
今回は2群とも正規性が認められた。
④ ピアソンの相関係数を求める
【分析】→【二変量の関係】を押す
【列の選択】から【年齢】を【X, 説明変数】に、【身長】を【Y, 目的変数】に入れるを選択→【OK】を押す
【▼】→【要約統計量】を押す
【▼】→【確率楕円】→【0.95】を押す
【二変量正規楕円 P=0.950】の右の【➤】を押す
「相関」と「P値」の値を読む
相関:相関係数rのこと。この値は1に近ければ近いほど「強い正の相関」、-1に近ければ近いほど「強い負の相関」、0に近ければ近いほど「相関なし」になる。特に基準はないが、目安は以下のようになる。
0.7~ 1.0⇒強い正の相関
0.4~ 0.7⇒かなり正の相関
0.2~ 0.4⇒弱い正の相関
-0.2~ 0.2⇒相関なし
-0.4~-0.2⇒弱い負の相関
-0.7~-0.4⇒かなり負の相関
-1.0~-0.7⇒強い負の相関
P値:有意差があれば「相関している」とみてよい。
よって、今回は年齢と身長に強い正の相関を認めた。
論文への書き方
年齢の身長はそれぞれ正規性を認めた (P = 0.13,P = 0.59)。よって、ピアソンの相関係数を求めたところ、両群に強い相関を認めた(r = 0.98,P < 0.001)。
JMPを用いたスピアーマンの相関係数
① データをセットする→ワークシートを選択する→正規性を確認する
ピアソンの相関係数と同様の手順です。
今回は年齢が非正規性を認めたため、ノンパラメトリックな方法を行う。
④ スピアーマンの相関係数を求める
【テーブル】→【列の積み重ね】を押す
【列の選択】から「年齢」「身長」を【Y, 目的変数】に入れる→【OK】を押す
【▼】→【ノンパラメトリック相関係数】→【Spearmanの順位相関係数(ρ)】を押す
「Spearmanの順位相関係数(ρ)」と「P値」の値を読む
数値の見方はピアソンと同じと考えてよい。
よって、今回は年齢と身長に強い正の相関を認めた。
論文への書き方
年齢は非正規性、身長は正規性を認めた (P = 0.005,P = 0.59)。よって、スピアーマンの相関係数を求めたところ、両群に強い相関を認めた(ρ = 0.99,P < 0.001)。
コメント