【相関分析と相関係数】
「風が吹けば桶屋が儲かる。」
「風が吹く」→「砂や埃が舞う」→「目の見えない人が増える」→「目の見えない人は三味線を買って出稼ぎにいく(当時の盲人[1]が就ける職業に由来)」→「三味線用の猫の皮が必要になる」→「(すると)猫の数が減っていく」→「(一方で)ネズミの数が増える」→「ネズミが桶をカジる」→「(よって)桶屋が繁盛する」...
はい(笑)
途中、どう考えてもムチャクチャな論理展開が見受けられるようですが( ̄~ ̄;)
まぁそれは置いといて...
このように、原因から結果が生まれ、相互に関係し合っている現象を「相関」といいます[2]。
一般に、異なる2つの変量x(A社の株)とy(B社の株)の間に相互関係がある場合、すなわち、xの値に対してyの値が変化するような関係にあるとき、xとyの間には相関関係があるといいます。これを調べるには、xとyをペア銘柄として点(x,y)を平面上にプロット(点を打つということ)していきます。このようにして出来上がったデータを相関図(散布図)といいます。
例として、xをA社、yをB社として両銘柄の間に相関があるか見てみましょう。
例:A社の過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円だったとする。B社の過去半年間の月末の終値が、80円、102円、117円、105円、99円、103円だったとする。

横軸:x(A社株価)・縦軸:y(B社株価) 相関係数:0.7315
相関図を見ると、プロットした点がなんとな~く一直線に並んでいるように見えます。この散布図から、両銘柄には、まぁ...それなりに高い相関関係がありそうだということがわかります。相関係数は0.7315です。
一般的に、相関(rで示す)の度合いは、
0.0 ≦ r ≦ 0.2 ⇒ ほとんど相関がない
0.2 ≦ r ≦ 0.4 ⇒ やや正の相関がある
0.4 ≦ r ≦ 0.7 ⇒ かなり正の相関がある
0.7 ≦ r ≦ 1.0 ⇒ 強い正の相関がある
逆に、
-0.0 ≦ r ≦ -0.2 ⇒ ほとんど相関がない
-0.2 ≦ r ≦ -0.4 ⇒ やや負の相関がある
-0.4 ≦ r ≦ -0.7 ⇒ かなり負の相関がある
-0.7 ≦ r ≦ -1.0 ⇒ 強い負の相関がある
と考えられます。
このように、相関には正(+)と負(-)の関係があります。一方が増えた(減った)ときに他方が増える(減る)場合は正(負)の相関があると考えられます。
係数rxyによって定義された相関係数は、
-1 ≦ rxy ≦ 1
という性質を持つことが証明されます。
この数値を算出するには、ざっくりですが、以下の3つの手順が必要です。
1. 相関図の中心を平均に揃える。
2. バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)。
3. 45°ラインへの距離を測る。
↑ごめんなさい、これだけだとさっぱりわからんね( ̄▽ ̄;)。。。
まず、「相関図の中心を平均に揃える」作業をします。
これは統計のお話の最初に説明した偏差(平均からのズレ)の計算です。それぞれの合計が0になるようにデータの書き直しを行います。
平均を計算する
A社:(80+95+110+125+90+100)÷6=100
B社:(80+102+117+105+99+103)÷6=101
↓
偏差を計算する
80-100=-20、95-100=-5、110-100=10、125-100=25、90-100=-10、100-100=0
↓
A社 -20、-5、10、25、-10、0 となる(平均値100からのズレ)
80-101=-21、102-101=1、117-101=16、105-101=4、99-101=-2、103-101=2
↓
B社 -21、1、16、4、-2、2 となる(平均値101からのズレ)
次に、「バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)」作業をします。
これは、四角形をイメージしていただきたいのですが、異なる標準偏差を持つA社とB社の株価は、このままだとバラツキが異なるため、標準偏差が大きいほうが長く、標準偏差が小さいほうが短い長方形の形をしています。もちろん、標準偏差が同じであれば正方形になりますよ(ここでは、式を簡略化するため、標準偏差まで計算せずに、分散まで出します。共分散という計算を行います)。
これを正方形に直して同じモノサシで図れるようにしてあげましょう。正方形に直すことによって、正方形の左下から右上に線を引くと、45°のキレイな直線が引けますね。プロットしたA社とB社の株価の交差する点に向かって、縦×横でそれぞれの四角形の面積を求め、この45°ラインへの近さを測ってあげればよいのです。
共分散の式は、
共分散 = (A社の株価-A社の平均株価)×(B社の株価-B社の平均株価)の合計÷株価データ数となります。
分散を計算する
A社 (-20)×(-20)、(-5)×(-5)、(10)×(10)、(25)×(25)、(-10)×(-10)、(0)×(0)
↓
400、25、100、625、100、0
B社 (-21)×(-21)、1×1、16×16、4×4、(-2)×(-2)、2×2
↓
441、1、256、16、4、4
↓
偏差どうしの積を計算する
A社:400、25、100、625、100、0
B社:441、1、256、16、4、4
↓
400×441=176400、25×1=25、100×256=25600、625×16=10000、100×4=400、0×4=0
↓
A社とB社の分散の合計を計算する
A社の分散は、400+25+100+625+100+0=1250
B社の分散は、441+1+256+16+4+4=722
↓
A社:1250、B社:722
ここまでの計算を以下の表にまとめました↓
共分散は右下の695になります。A社の偏差とB社の偏差を掛けたものが一番右の列です。ちょっと計算を簡略化したけど、平均からのズレどうしを掛けたものを全部足した数字が共分散:695です。
最後に、「45°ラインへの近さを測る」作業をします。
第3ステップでは、A社株価とB社株価の交差する点、すなわちプロットした点までの誤差どうしを掛け算することで四角形の面積を求めます。
共分散を使って異なる2つの変量x(A社株価)とy(B社株価)を算出しました。しかし、ここで1つ問題があります。それは、「共分散の値は使用するデータの単位に依存してしまう」ということです(たとえば身長と体重、体重と食べる量など)。よって、共分散の値だけで相関の有無を議論することは非常に危険なことなのです。
そのため、相関を、単位に依存しないように客観的に示す値が必要になります。手順としては係数rxyで示される相関係数(Pearsonの積率相関係数)を使って相関を客観的に評価することになります。これがいわゆる3番目のステップ「45°ラインへの近さを測る」です。イメージとしては、A社株価とB社株価の交差するポイント、すなわちプロットした点までの誤差どうしを掛け算することで四角形の面積を求めます。
相関係数の式は、
相関係数 = (A社の株価とB社の株価の共分散)÷(A社の株価の標準偏差×B社の株価の標準偏差)となります。
↓
= A社とB社の分散の合計÷√(A社の株価の分散)×(B社の株価の分散)
↓
= 695÷√1250×722
= 695÷√902500
= 695÷950
= 0.731579
よって、相関係数は 0.731579 となります。
表計算ソフト使うと今やった計算を一瞬でやってくれるので、いちいちこんな計算覚えなくてよろしいかとw
ただし、今行った計算の過程から非常に多くの弱点を見つけることができます。ロングショートといえば...サヤ取りといえば...「相関係数」を重視して取引をする人が多いと思いますが、「相関係数」には実は多くの問題点があります。
まず、相関係数は元のデータ(相関図)を45°のラインに合うように変換し算出した値なので、「元のデータの傾きは相関係数からはわからない」ということ。すなわち、一方のデータ(A社の株価)が、他方のデータ(B社の株価)に与える変化の大きさがわからないということです。
次に、相関係数は、「直線(一次関数)の関係しか表すことができない」ということ。よって、Uの字を描くような曲線(二次関数)の相関図や2系列の直線関係をもつ相関図、グループ同士が2つの塊になっている相関図などは考慮されていないということです。
3番目に、データ数が少なすぎると、「偶然」の発生する確率が高くなってしまいます。以前も正規分布のところで説明しましたが、データ数は少なすぎると本来の必然性が正しく反映されない可能性があります。
4番目に、相関係数は相関図と合わせて用いるべきです。これは上述した3つの理由でもありますが、元のデータがどのような形状になっているかを確認しないと相関係数だけでは読み取れなかった情報に気付かない可能性があるためです。
最後に、相関係数は、必ずしも「因果関係を表した数値ではない」ということです。冒頭の説明の例では「風が吹くと桶屋が儲かる」の話を思い出してほしいのですが、たとえば、「健康食品を買う人」と「風邪をひきやすい人」の間に高い相関関係があれば、健康食品はインチキだということになってしまいます。むしろ話は逆で、「風邪をひきやすい人」ほど「健康食品を買う傾向にある」のかもしれません。同様に「メガネをかける人」と「試験の成績」も同じです。これも話は逆で、「目が悪くなるくらい勉強したから成績がよかった」のかもしれません。メガネのCMとかで、「このメガネをかければ成績が良くなりますよ~♪」という宣伝があったら、「ホントかよ~w」ってなるでしょ?このあたりは、いくらでも相関を利用して嘘をつくこともできてしまうので注意が必要です。
ということで、ここでt分布表[3] を使って相関係数の検定をします。この表と比較して、計算値(絶対値)が検定表より大きければ、「変量xとyの間には相関関係がある」ということになります。なお、「0.05%≦計算値」ならば「有意」、「0.01%≦計算値」ならば「高度に有意」といい、計算値の右肩に「*」や「**」をつけます。
例の場合、株価データは6個なので自由度は4(6-2、相関係数の場合は自由度が-2になります[3])です。計算した相関係数は0.731579でした。自由度4(6-2)は、相関係数検定表[4]よりそれぞれ0.95000(0.05)、0.99000(0.01)です。
計算した相関係数は0.731579でしたから、「0.95000≦0.731579」×→「0.95000≧0.731579」○⇒「有意」でない、「0.99000≦0.731579」×→「0.99000≧0.731579」○⇒「高度に有意」でない、となります。
ということで、検定の結果、残念ながらxとyの間には「相関係数がある」とはいえないようですね。
次は、「回帰分析」を使ってプロットした株価データが、回帰直線にどのくらいの精度で説明されているかを説明します。
[1] 「盲人」という表現が差別用語にあたるか調べてみましたが、そのような放送倫理規定はないらしいので、江戸時代当時の表現を用いることにしました。なお、現在の表現では「視覚障がい者」の方に該当する言葉ですが、当ブログでは「目の見えない人」と記載することにしました。
参考URL: http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000030619
[2] 相関は、必ずしも因果関係が証明されるものではない。数字だけを過信せずに言葉と言葉の行間もしっかり読むこと!
[3] 相関係数を出すためには、変量xとyという2つのデータの平均を基準としており、これらの平均は、全ての対象データの計算結果から導かれる。この2つの値は、標本全体からの計算結果として導かれるため、実際は、この2つの平均分を抜いた「n-2」が検定の対象となる。このように、ある何らかの関係式において対象の数から、計算によって得られる値の数を引いた値を「自由度」という。したがって、相関係数のt分布は、自由度「n-2」のt分布に従うことになる。
[4] 相関係数検定表は無相関検定という手法に基づいて作成されたもの。株取引でいえば、過去半年間のデータ数が20営業日×6か月だとすると120本、1年間だと240本。120本のデータを何らかの相関関係があるというためには0.18以上、240本だと0.16以上あれば何らかの相関があると認められる(以外とハードルが低い)。以前、【正規分布】のところでも書きましたが、ここでもやはり最低でも過去半年間くらいのデータまでは遡って検証したほうがよさそうだということがわかりますね。
お知らせ【ブログを移転しました】

にほんブログ村

金融・投資 ブログランキングへ