統計関連

サヤ取り(ロングショート)をする上で最低限必要と思われる内容をまとめています。

2013年12月26日 (木)

統計についてのお話 【まとめ②】


【まとめ②】

 

ここでは、【相関分析と相関係数】【回帰分析と回帰係数】【回帰方程式と決定係数】の要点だけまとめておきます。


 

相関分析と相関係数

 

一般に、異なる2つの変量xyの間に相互関係がある場合、すなわち、xの値に対してyの値が変化するような関係にあるとき、xyの間には相関関係があるという。相関は「変量xyの相関の強さを示す数値」(相関係数)で表すことができる。

相関には正(+)と負(-)の関係があり、一方が増えた(減った)ときに他方が増える(減る)場合は正(負)の相関があると考えられる。

 

なお、相関係数は相関図(散布図)と合わせて用いるべきだと考えられる。これは、元のデータがどのような形状になっているかを確認しないと相関係数だけでは読み取れなかった情報に気付かない可能性があるため。

 

 

回帰分析と回帰係数

 

回帰分析は、相関係数からは読み取れなかった「変量xyがどのくらいの割合で増加(減少)するかを表す」ために行う。相関図(散布図)から回帰直線の方程式を算出すると、「いくつかの変数があったときに、ある変数(X)を他の変数(Y)でどれくらい説明できるか」がわかる。

 

 

回帰方程式と決定係数

 

決定係数とは、回帰方程式の精度を表す指標。使ったデータの信頼性、精度を分析するために使う。すなわち、回帰直線を使って相関図(散布図)の分布をどの程度うまく説明できているかを表す数値である。

 

 

ということで、相関分析から決定係数の算出まで説明しましたが、株式関連の書籍で統計について言及する際、相関係数や決定係数について詳しく説明しているテキストが見当たらなかったので、参考までに書いてみました。

なお、回帰分析では決定係数を算出することによって、データがどのくらい回帰直線にうまく当てはまっているかを確認しました。これは、スクリーニングの際、ペア銘柄候補がたくさん出てしまったときに、これから投資するペア銘柄(ポートフォリオモデル)の評価基準として参考にしていただければと思います。

 

以上


お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

統計についてのお話 その⑩【回帰方程式と決定係数】


【回帰方程式と決定係数】

 

決定係数とは、回帰方程式の精度を表す指標です。使ったデータは本当によかったのか、精度はどうなのか、というところまできちんと分析する必要があります。すなわち、使用した株価データの分布が回帰直線にうまくあてはまるかどうかを確認します。

 

手順は、

 

まず、yB社の株価)の変動を求めます。

次に、残差平方和(残差2)を求めます。

最後に、決定係数を求めます。

Kettei

                             

まず、yB社の株価)の変動を求めます。

 

yの変動=(各データ-平均値)の平方和

yの変動=(-212+(12+(162+(42+(-22+(22

yの変動441+1+256+16+4+4

yの変動=722

 

次に、残差平方和(残差2)を求めます。

 

残差平方和=(yの値-回帰方程式より求めたyの値)2

残差平方和={80-(0.556×8045.4}2{102-(0.556×9545.4}2{117-(0.556×11045.4}2{105-(0.556×12545.4}2{99-(0.556×9045.4}2{103-(0.556×10045.4}2

残差平方和=335.58

 

決定係数=(yの変動-残差平方和)÷yの変動

決定係数=(722335.58)÷722

決定係数=386.42÷722

決定係数=0.535208

 

以上により決定係数は≒0.535208となりました。よって、回帰方程式は目的変量のだいたい5354%程度しか説明できていないことがわかりました。決定係数は01の間の数で、1に近いほどデータをよく説明していることになります。よって、この回帰直線は残念ながらうまく株価データにあまり上手く当てはまっていないと判断することができます。


09_640x381_2

お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

統計についてのお話 その⑨【回帰分析と回帰係数】


【回帰分析と回帰係数】

 

相関分析の説明では、相関は「変量xyの相関の強さを示す数値」(相関係数)であることを説明しました。回帰分析では、相関係数からは読み取れなかった「変量xyがどのくらいの割合で増加(減少)するかを表す」ために、回帰直線という直線を使って分析する作業を行います。

 

回帰直線を分析すると、「いくつかの変数(株価データ)があったときに、ある変数(X)を他の変数(Y)でどれくらい説明できるか」がわかります。

 

これから求める「回帰方程式」は相関図のデータに最も良くあてはまる直線となりますが、その一方で、実際には各データに対して必ず誤差が存在しています。回帰式の推定に用いられる最小二乗法は、求める直線とデータとのy軸でみた誤差(残差)dの二乗和(つまり誤差の面積)が最小になるように直線を求める方法となります。


13_640x444


回帰式は通常、

 

yaxbで表します。

 

例:投資用マンションと最寄駅までの距離を調べたところ、駅前(徒歩0分)の投資物件の平均利回りが10%だったとする。調査の結果、駅からの距離が1分伸びるごとに0.5%ずつ利回りが低下することがわかったとする。

マンションの利回りをy、最寄駅までの距離をxとした場合、この関係は以下のようにまとめることができます。

 

予測値y^10.00.5x

 

これが回帰式となります。変量Xを使って変量Yの増加・減少を説明するための式です。この式を使うと、駅からの距離が徒歩1分→平均利回り9.5%、2分→平均利回り9.0%、3分→平均利回り8.5%、4分→平均利回り8%、5分→平均利回り7.5%...と予測することができます。

※ これはあくまでも例なので、20分歩くと利回り0%になってオーナーさんが無料で部屋を貸してくださるかどうかは、私は知りませんよ(笑)

 

で...これはかなり計算が長くなるので、前の相関係数の説明で使った表を見てください。

 

例:A社の過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円だったとする(A社の平均100円)。B社の過去半年間の月末の終値が、80円、102円、117円、105円、99円、103円だったとする(B社の平均株価101円)。

 

A社をxB社をyとした場合、x社の株価データを使ってy社の株価のデータの増加・減少を分析します。 

 

Kaiki1  

                           

回帰式を使って、回帰係数という数値を求めます。回帰係数は「b」で表します。

 

回帰係数bは、

 

b = XYの分散の和÷Xの分散で求められます。

b = 695÷1250

b = 0.556

 

回帰式は、

yyの平均=bxxの平均)で求められます。

y101 = 0.556x55.6 

y = 0.556x55.6101

y = 0.556x45.4

 

となります。


お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

統計についてのお話 その⑧【相関分析と相関係数】


【相関分析と相関係数】

 

「風が吹けば桶屋が儲かる

 

「風が吹く」→「砂や埃が舞う」→「目の見えない人が増える」→「目の見えない人は三味線を買って出稼ぎにいく(当時の盲人[1]が就ける職業に由来)」→「三味線用の猫の皮が必要になる」→「(すると)猫の数が減っていく」→「(一方で)ネズミの数が増える」→「ネズミが桶をカジる」→「(よって)桶屋が繁盛する」...

 

はい(笑)

 

途中、どう考えてもムチャクチャな論理展開が見受けられるようですが( ̄~ ̄;)


まぁそれは置いといて...

 

このように、原因から結果が生まれ、相互に関係し合っている現象を「相関」といいます[2]

 

一般に、異なる2つの変量xA社の株)とyB社の株)の間に相互関係がある場合、すなわち、xの値に対してyの値が変化するような関係にあるとき、xyの間には相関関係があるといいます。これを調べるには、xyをペア銘柄として点(x,y)を平面上にプロット(点を打つということ)していきます。このようにして出来上がったデータを相関図(散布図)といいます。

 

例として、xA社、yB社として両銘柄の間に相関があるか見てみましょう。

 

例:A社の過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円だったとする。B社の過去半年間の月末の終値が、80円、102円、117円、105円、99円、103円だったとする。

 

Soukan1

横軸:xA社株価)・縦軸:yB社株価) 相関係数:0.7315

 

相関図を見ると、プロットした点がなんとな~く一直線に並んでいるように見えます。この散布図から、両銘柄には、まぁ...それなりに高い相関関係がありそうだということがわかります。相関係数は0.7315です。

 

一般的に、相関(rで示す)の度合いは、

 

0.0 ≦ r ≦ 0.2 ⇒ ほとんど相関がない

0.2 ≦ r ≦ 0.4 ⇒ やや正の相関がある

0.4 ≦ r ≦ 0.7 ⇒ かなり正の相関がある

0.7 ≦ r ≦ 1.0 ⇒ 強い正の相関がある

 

逆に、

 

0.0 ≦ r ≦ -0.2 ⇒ ほとんど相関がない

0.2 ≦ r ≦ -0.4 ⇒ やや負の相関がある

0.4 ≦ r ≦ -0.7 ⇒ かなり負の相関がある

0.7 ≦ r ≦ -1.0 ⇒ 強い負の相関がある

 

と考えられます。

 

このように、相関には正(+)と負(-)の関係があります。一方が増えた(減った)ときに他方が増える(減る)場合は正(負)の相関があると考えられます。

 

係数rxyによって定義された相関係数は、

 

-1 ≦ rxy ≦ 1

 

という性質を持つことが証明されます。

 

 

この数値を算出するには、ざっくりですが、以下の3つの手順が必要です。

 

1. 相関図の中心を平均に揃える。

2. バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)。

3. 45°ラインへの距離を測る。

 

↑ごめんなさい、これだけだとさっぱりわからんね( ̄▽ ̄;)。。。

 

 

まず、「相関図の中心を平均に揃える」作業をします。

 

これは統計のお話の最初に説明した偏差(平均からのズレ)の計算です。それぞれの合計が0になるようにデータの書き直しを行います。

 

06_640x511

  

平均を計算する

 

A社:(809511012590100)÷6100

 

B社:(8010211710599103)÷6101

 

 

偏差を計算する

 

80100=-2095100=-5110100101251002590100=-101001000

A社 -20、-51025、-100 となる(平均値100からのズレ)

 

80101=-21102101111710116105101499101=-21031012

B社 -211164、-22 となる(平均値101からのズレ)

 

 

次に、「バラツキを合わせて同じモノサシで図る(尺度の異なるデータを同じ基準に合わせる)」作業をします。

 

これは、四角形をイメージしていただきたいのですが、異なる標準偏差を持つA社とB社の株価は、このままだとバラツキが異なるため、標準偏差が大きいほうが長く、標準偏差が小さいほうが短い長方形の形をしています。もちろん、標準偏差が同じであれば正方形になりますよ(ここでは、式を簡略化するため、標準偏差まで計算せずに、分散まで出します。共分散という計算を行います)。

 

07_640x284

 

これを正方形に直して同じモノサシで図れるようにしてあげましょう。正方形に直すことによって、正方形の左下から右上に線を引くと、45°のキレイな直線が引けますね。プロットしたA社とB社の株価の交差する点に向かって、縦×横でそれぞれの四角形の面積を求め、この45°ラインへの近さを測ってあげればよいのです。

 

共分散の式は、

 

共分散 = (A社の株価-A社の平均株価)×(B社の株価-B社の平均株価)の合計÷株価データ数となります。

 

分散を計算する

 

A社 (-20)×(-20)、(-5)×(-5)、(10)×(10)、(25)×(25)、(-10)×(-10)、(0)×(0

400251006251000

 

B社 (-21)×(-21)、1×116×164×4、(-2)×(-2)、2×2

44112561644

 

 

偏差どうしの積を計算する

 

A社:400251006251000

B社:44112561644

400×44117640025×125100×25625600625×1610000100×44000×40

 

 

A社とB社の分散の合計を計算する

 

A社の分散は、4002510062510001250

B社の分散は、44112561644722

A社:1250B社:722

 

ここまでの計算を以下の表にまとめました↓

Soukan2

 

共分散は右下の695になります。A社の偏差とB社の偏差を掛けたものが一番右の列です。ちょっと計算を簡略化したけど、平均からのズレどうしを掛けたものを全部足した数字が共分散:695です。

 

 

最後に、「45°ラインへの近さを測る」作業をします。

 

3ステップでは、A社株価とB社株価の交差する点、すなわちプロットした点までの誤差どうしを掛け算することで四角形の面積を求めます。

 

08_640x640

共分散を使って異なる2つの変量xA社株価)とyB社株価)を算出しました。しかし、ここで1つ問題があります。それは、「共分散の値は使用するデータの単位に依存してしまう」ということです(たとえば身長と体重、体重と食べる量など)。よって、共分散の値だけで相関の有無を議論することは非常に危険なことなのです。

 

そのため、相関を、単位に依存しないように客観的に示す値が必要になります。手順としては係数rxyで示される相関係数(Pearsonの積率相関係数)を使って相関を客観的に評価することになります。これがいわゆる3番目のステップ「45°ラインへの近さを測る」です。イメージとしては、A社株価とB社株価の交差するポイント、すなわちプロットした点までの誤差どうしを掛け算することで四角形の面積を求めます。

 

相関係数の式は、

 

相関係数 = (A社の株価とB社の株価の共分散)÷(A社の株価の標準偏差×B社の株価の標準偏差)となります。

= A社とB社の分散の合計÷√(A社の株価の分散)×(B社の株価の分散)

= 695÷√1250×722

= 695÷√902500

= 695÷950

= 0.731579

 

よって、相関係数は 0.731579 となります。

 

 

Soukan3

表計算ソフト使うと今やった計算を一瞬でやってくれるので、いちいちこんな計算覚えなくてよろしいかとw

 

ただし、今行った計算の過程から非常に多くの弱点を見つけることができます。ロングショートといえば...サヤ取りといえば...「相関係数」を重視して取引をする人が多いと思いますが、「相関係数」には実は多くの問題点があります。

 

まず、相関係数は元のデータ(相関図)を45°のラインに合うように変換し算出した値なので、「元のデータの傾きは相関係数からはわからない」ということ。すなわち、一方のデータ(A社の株価)が、他方のデータ(B社の株価)に与える変化の大きさがわからないということです。


次に、相関係数は、「直線(一次関数)の関係しか表すことができない」ということ。よって、Uの字を描くような曲線(二次関数)の相関図や2系列の直線関係をもつ相関図、グループ同士が2つの塊になっている相関図などは考慮されていないということです。


3番目に、データ数が少なすぎると、「偶然」の発生する確率が高くなってしまいます。以前も正規分布のところで説明しましたが、データ数は少なすぎると本来の必然性が正しく反映されない可能性があります。


4番目に、相関係数は相関図と合わせて用いるべきです。これは上述した3つの理由でもありますが、元のデータがどのような形状になっているかを確認しないと相関係数だけでは読み取れなかった情報に気付かない可能性があるためです。


最後に、相関係数は、必ずしも「因果関係を表した数値ではない」ということです。冒頭の説明の例では「風が吹くと桶屋が儲かる」の話を思い出してほしいのですが、たとえば、「健康食品を買う人」と「風邪をひきやすい人」の間に高い相関関係があれば、健康食品はインチキだということになってしまいます。むしろ話は逆で、「風邪をひきやすい人」ほど「健康食品を買う傾向にある」のかもしれません。同様に「メガネをかける人」と「試験の成績」も同じです。これも話は逆で、「目が悪くなるくらい勉強したから成績がよかった」のかもしれません。メガネのCMとかで、「このメガネをかければ成績が良くなりますよ~♪」という宣伝があったら、「ホントかよ~w」ってなるでしょ?このあたりは、いくらでも相関を利用して嘘をつくこともできてしまうので注意が必要です。

 

ということで、ここでt分布表[3] を使って相関係数の検定をします。この表と比較して、計算値(絶対値)が検定表より大きければ、「変量xyの間には相関関係がある」ということになります。なお、「0.05%≦計算値」ならば「有意」、「0.01%≦計算値」ならば「高度に有意」といい、計算値の右肩に「*や「**をつけます。

 

例の場合、株価データは6個なので自由度は462、相関係数の場合は自由度が-2になります[3])です。計算した相関係数は0.731579でした。自由度462)は、相関係数検定表[4]よりそれぞれ0.950000.05)、0.990000.01)です。

計算した相関係数は0.731579でしたから、「0.950000.731579」×→「0.950000.731579」○⇒「有意」でない、「0.990000.731579」×→「0.990000.731579」○⇒「高度に有意」でない、となります。

 

ということで、検定の結果、残念ながらxyの間には「相関係数がある」とはいえないようですね。

次は、「回帰分析」を使ってプロットした株価データが、回帰直線にどのくらいの精度で説明されているかを説明します。

 

[1] 「盲人」という表現が差別用語にあたるか調べてみましたが、そのような放送倫理規定はないらしいので、江戸時代当時の表現を用いることにしました。なお、現在の表現では「視覚障がい者」の方に該当する言葉ですが、当ブログでは「目の見えない人」と記載することにしました。

参考URL http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000030619

[2] 相関は、必ずしも因果関係が証明されるものではない。数字だけを過信せずに言葉と言葉の行間もしっかり読むこと! 

[3] 相関係数を出すためには、変量xyという2つのデータの平均を基準としており、これらの平均は、全ての対象データの計算結果から導かれる。この2つの値は、標本全体からの計算結果として導かれるため、実際は、この2つの平均分を抜いた「n2」が検定の対象となる。このように、ある何らかの関係式において対象の数から、計算によって得られる値の数を引いた値を「自由度」という。したがって、相関係数のt分布は、自由度「n2」のt分布に従うことになる。

[4] 相関係数検定表は無相関検定という手法に基づいて作成されたもの。株取引でいえば、過去半年間のデータ数が20営業日×6か月だとすると120本、1年間だと240本。120本のデータを何らかの相関関係があるというためには0.18以上、240本だと0.16以上あれば何らかの相関があると認められる(以外とハードルが低い)。以前、【正規分布】のところでも書きましたが、ここでもやはり最低でも過去半年間くらいのデータまでは遡って検証したほうがよさそうだということがわかりますね。


お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

2013年12月16日 (月)

統計についてのお話 【まとめ①】


【まとめ①】


ここまで【偏差】【変動】【分散】【標準偏差】【正規分布】【標本と推測統計】と書いてきましたが、ここで要点だけまとめておきます。

 

偏差

 

偏差とは、個体の値から平均値を引いて得られる値のこと、すなわち、偏差とは「平均値からのズレを表した数値」のことである。

 

 

変動

 

偏差をすべて足すと、それぞれの個性が持つ平均からのズレ(プラスとマイナスどおし)が打ち消し合って、値が0(すなわち平均値)になってしまうため、それぞれの偏差(平均値からのズレ)を2条してから足し算をするようにする。

 

 

分散

 

分散は、「データの範囲が平均からどのくらいの広さに散らばっているか」を表した数値である。つまり、データが散らばっている広がりの範囲を数値化したものが分散である。

 

 

標準偏差

 

分散の正の平方根(ルート:√)を標準偏差という。√する理由は、2つある。

1つは、分散のままだとデータが大きすぎるので、株価データの幅として採用することができないから。

もう1つは、」(偏差)2という単位になっているため、元の変量データに戻してあげる必要があるから。

 

 標準偏差は山の高さと横幅、すなわちブレ幅の大きさを合わせてあげることで、標準偏差の大きい銘柄の片張り投資になるのを防ぐために行う必要がある。これにより、一方の銘柄が他方の銘柄に対して十分なヘッジ効果を高め、マーケットに対してニュートラル(中立的)なポジションが組めると考えられる。

 

 

正規分布

 

本来は、現実に起こった分布を当てはめて分析を行うべきだが、理論的には関数のわかっている分布でないと分析ができなくなる。そのため、関数のよくわかっている正規分布を仮定として用いる。つまり、分散が有限であれば、「あらゆる分布の平均は、標本数の増加とともに正規分布に近づく」という「中心極限定理」の特徴を使って推測統計を行う。このとき、データ数が少ないと、中心極限定理の特徴がうまく作用せず、分析データの信頼度が低下してしまうため注意が必要。また、中心極限定理の特徴には「データ数が多ければ多いほど、標本平均は母集団平均に近い数値をとる可能性が高くなる」という「大数の法則」がある。

 

 マーケットは正規分布ではない。そのため、あくまでも正規分布であると仮定として中心極限定理の特徴を利用するために用いる。よって検証結果と実際のデータの間には一定の誤差が生じる。この問題は解決できないが、推測統計によって誤差を埋めていくことにより、推測値を大幅に改善することができるしかし、データ数が一定以上ないと、「偶然」の発生確率が上がり、推測統計に十分な信頼が得られない可能性が高い(想定外の誤差が発生する可能性が上がる)。よって、最低限6か月、できれば1年以上のデータ標本を用意するのが望ましいと考えられる(6か月は信用倍率の決済期限でもあるため、やはり最低限6か月以上は遡ってデータ収集すべきだと考えられる)。

 

 

標本と推測統計

 

世の中に存在するデータは有限であるが、母集団そのもののデータを知ることはほぼ不可能である。そこで、「標本から母集団の性質を間接的に推測する」必要がある。正規分布の中心から見た範囲の大きさを指定してあげれば、その範囲の中に標本平均が含まれる確率を推測することができる(区間推定)。

区間推定により、正規分布は、「中心から±標準偏差分の範囲内(σ1)に全データの68.3%を、±2個分の標準偏差分の範囲内(σ2)に全データの95.44%を、±3個分の標準偏差分の範囲内(σ3)に全データの99.74%を含む」という特徴を持っていることがわかる。

一般的には、標準偏差±2個分の95.44%を用いるのが習慣となっていて、正規分布表を参照すると、信頼区間の範囲が95.44%になるのは、標準偏差1.96倍のときであることがわかる。このとき、母集団平均がわからず、標準偏差が算出できない問題がある。標準偏差=√分散であるが、このとき、データ数30個以上のものに関しては「大標本法」を用いて標本の分散を母集団の平均とみなして使うことができる。

 

 一定のデータ数を用いて、推測統計によって得られたデータは、「理論的には、正規分布を前提としているものの、現実的に、平均からの誤差は正規分布から大きく離れた分布となる。そのため、あくまでも、ボラティリティを測る尺度として、√(誤差)2が使われている」という点に注意。この辺りに金融工学の限界があると思われる。

 

以上

 

お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

2013年12月15日 (日)

統計についてのお話 その⑦【ボリンジャーバンド】


【ボリンジャーバンド】

 

データ分析は本来であれば、現実に起こった分布を当てはめて分析を行うべきですが、理論的には関数のわかっている分布でないと分析ができません。そのため、マーケットでは関数のよくわかっている正規分布を仮定として用いることになります。つまり、分散が有限であれば、「あらゆる分布の平均は、標本数の増加とともに正規分布に近づく」という「中心極限定理」の特徴を使って推測統計を行います。また、中心極限定理の特徴には「データ数が多ければ多いほど、標本平均は母集団平均に近い数値をとる可能性が高くなる」という「大数の法則」があります。


正規分布は、「中心から±標準偏差分の範囲内(σ1)に全データの68.3%を、±2個分の標準偏差分の範囲内(σ2)に全データの95.44%を、±3個分の標準偏差分の範囲内(σ3)に全データの99.74%を含む」という特徴を持っています。

 

以上は前回までの復習です。このように「マーケットが正規分布であると仮定して、推測統計を行い信頼区間の分析を行う」。この考え方を応用したものがトレンド系のテクニカル指標である「ボリンジャーバンド」です。本来は順張りに使われるために開発されたものらしいのですが、逆張りに使う投資家が多いです。私も、サヤの拡大幅・縮小幅を見る指標として逆張りで「あくまでも参考までに」使っています。これについてはコラム【逆張り投資の注意点】をご参照ください。

 

±1σ    68.3%

±2σ   95.44%

±3σ   99.74%

 

 

68.3% n日の移動平均 ± n日の標準偏差 × 1

95.44% n日の移動平均 ± n日の標準偏差 × 2

99.74% n日の移動平均 ± n日の標準偏差 × 3

 

 

±1σ n日の移動平均 ± n日の標準偏差 × 1

±2σ n日の移動平均 ± n日の標準偏差 × 2

±3σ n日の移動平均 ± n日の標準偏差 × 3

 nには20日が使用される事が多いです。

 

というちょっと特殊な使われ方をしています。


注意点として、「理論的には、値動きの正規分布を前提としているものの、現実的に、平均からの誤差は正規分布から大きく離れた分布となります。そのため、あくまでも、ボラティリティを測る尺度として、√(誤差2が使われているに過ぎない」ということを何となくいいので覚えておいてください。


平均+誤差の標準偏差という考え方は金融の世界には昔からあります。たとえば、オプション取引の価格を決めるときに使われているブラック・ショールズ方程式もこの考え方に基づいています。何度も言いますが、マーケットは正規分布にはなりません。そのため、「正規分布を前提として作られたこの方程式から算出された価格は現実の世界では成立しない」という批判があります。ボリンジャーバンドも同様ですが、この辺りにテクニカル分析、ひいては金融工学の限界があるように思います。

 

ボリンジャーバンドは通常、トレンドが出ているときは「順バリ」(終値が上のバンドを上抜いたら買い、下のバンドを下抜いたら売り)、レンジ相場のときは「逆バリ」(終値が上のバンドを上抜いたら売りシグナル、下のバンドを下抜いたら買いシグナル)として投資判断に利用されます。ロングショートは「人工のレンジ相場」を想定してトレードしているから逆張りで使います。

 

Bollinger_bands

↑こんなかんじ。右の2つがそれぞれ20日移動平均の±σ2です。


 

【ボリンジャーバンドの計算式】

 

まず、t時点におけるn期間の移動平均線(単純移動平均線、Simple Moving Average)、SMAn,t)の計算式は、

 

SMAn,t)=(XtXt-1Xt-2+…+Xt-n+1)÷n

 

次に、t時点に至るn期間の価格の標準偏差σtを計算する。

 

移動平均線に対する乖離幅をkσt(ここでkは任意の定数、例:23)とする上のバンドラインの線UBBn,t)は、

 

UBBn,t)=SMAn,t)+kσt

 

下のバンドラインの線UBBn,t)は、

 

UBBn,t)=SMAn,t)-kσt

 

となる。


お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

統計についてのお話 その⑥【標本と推測統計】


【標本と推測統計】

 

世の中には多くのデータがありますが、それらのデータは有限であるものの、私たちは母集団そのもののデータ(一定期間の全TICKデータなど)を知ることはほぼ不可能です。そこで、「標本から母集団の性質を間接的に推測する」という推測統計の方法を説明します。具体的に株価分析では、標本データは「日足データの終値」を使用することになります。

 

まず、注意点として2つあります。1つは、標本と母集団は区別して考えること。そしてもう1つは、「標本は母集団の一部に過ぎないため、100%の精度ではない」ということです。正規分布のところで書いた「中心極限定理」を思い出してください。分散が有限であれば、「あらゆる分布の平均は、標本数の増加とともに正規分布に近づく」という特徴がありましたね。あくまでも近づくのであって、正規分布にはなりません。


たくさんの標本を作って平均値を出せば、標本の平均値の分布は正規分布に近くなりますね。そこで、正規分布ではないけれども、正規分布に当てはめて考えてみます。つまり、正規分布だと仮定して考えていくわけですから、「標本平均から母集団平均を推測する」という作業が必要になります。

 

01_640x464_2


ここで、正規分布の山をイメージしてください。正規分布の中心から見た範囲の大きさを指定してあげれば、その範囲の中に標本平均が含まれる確率を推測することができます(これを区間推定といいます)。

この区間推定とは、「ある結果を、ある一定の広さの範囲と、その範囲に含まれる確率の組み合わせ」によって推定する方法」です。区間推定において、推定値を含む区間のことを「信頼区間」といいます。

今、私たちには母集団がどんな形状の分布になっているかわかりません。しかし、標本平均はわかっています(この標本平均は、母集団平均に近いのか遠いのかはわかりません)。

そこで、標本平均が取り得る範囲を広げてみます。標本平均が取り得る範囲、つまり信頼区間を広げていけば、その中に母集団平均が含まれる確率が上がっていきます。

 

では、どれほど区間の幅を広げれば、どれだけ確率が上がるのか?


±1σ 68.3%

±2σ 95.44%

±3σ 99.74%

 

正規分布は、「中心から±標準偏差分の範囲内(σ1)に全データの68.3%を、±2個分の標準偏差分の範囲内(σ2)に全データの95.44%を、±3個分の標準偏差分の範囲内(σ3)に全データの99.74%を含む」という特徴を持っています。


一般的に、統計の世界でもマーケットの世界でも、標準偏差+-2個分の95.44%を用いるのが習慣となっています。「正規分布表[1]」という、この分布のためだけに作られた特殊な表を見れば、信頼区間の範囲が95.44%になるのは、標準偏差1.96倍のときです。

 

さて、ここで問題が発生します。標準偏差をどうするか?標準偏差の1.96倍に95.44%のデータが入るだろうということはわかっても、標準偏差がわからないと、正規分布の横幅がどのくらいなのかわかりませんね。標準偏差の求め方は、√分散でしたよね。では分散はどうやって出したらいいのでしょう?


この場合は「大標本法」といって、標本の分散を母集団の平均とみなして使います。最初に標本と母集団を区別するように書きましたが、分散については、データ数が30以上ならば、結果はそれほど変わらないということが統計学的に証明されています(30以下の場合は、t検定という方法を使います)。

 

ここで、A社の株価の例を思い出してください

 

~~~~~~前回までの復習~~~~~~

標準偏差の算出方法

~~~~~~ここまで~~~~~~

 

大標本法を使うとこんな感じになります↓

 

A社の過去半年分のTICKデータを母集団とすると、それは現在の株価平均を母集団平均として、母集団の標準偏差が≒14.43の正規分布をしていたとする。この場合の95.44%の信頼区間(±σ2個分の標準偏差の範囲内)を求めてみます。

 

大標本法では、母集団平均がわからなくても標本平均を使って推定するのでしたね。だから標本平均の標準偏差に≒14.43を使います。株価の平均が、(809511012590100)÷6100。データ6個の標本平均は100ですね。ここでは、求める母集団平均はμの記号を使います。

 

95.44%の信頼区間を求める不等式を作る。

1.96 ≦ (標本平均-母集団平均μ)÷標準偏差 ≦ +1.96

よって、不等式は、

1.96 ≦ (100-μ)÷14.43 ≦ +1.96

を満たす母集団平均の範囲を求めればよいということになります。

14.43×(-1.96) ≦ 100-μ ≦ 14.43×(+1.96

28.2828 ≦ 100-μ ≦ 28.2828

10028.2828 ≦ μ ≦ 100+28.2828

よって、71.7172 ≦ μ ≦ 128.2828 となる。

 

はい、過去半年間の月末の終値データを使ってTICKデータのブレ幅を予測しました。ここから、おそらくA社の株価は過去半年間で71円~128円の中に95%のTICKデータが入っているらしいということがわかりました。

 

思い出してください(何度もすいません)。

例:A社の過去半年間の株価は、80円、95円、110円、105円、90円、100円だったとする。

 

A社の平均値が100円、最高値が110円、最安値が80円(平均からの誤差:-20円~+10円)ですから、71円~128円(平均からの誤差:-29~+28円)の中にだいたい納まっているようですね(少し誤差が気になるところですが)。今はデータ数が6個しかなかったけど、これを増やしていくと最安値が71円、最高値が128円くらいにどんどん近づいていきます(理論上は)。その理由は、中心極限定理の特徴である「大数の法則」を思い出してください。「データ数が多ければ多いほど、標本平均は母集団平均に近い数値をとる可能性が高くなる」でしたよね。

 

次は、この考え方を応用した「ボリンジャーバンド」というトレンド系のテクニカル指標についてざっくり書いてみますよ♪


[1] 正規分布表

お知らせ【ブログを移転しました



にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

統計についてのお話 その⑤【正規分布】


【正規分布】

 

株価のデータをたくさん集めてヒストグラムを作ると、ある決まった形(分布)が現れます。

                             

01_640x464


本来は、現実に起こった分布を当てはめて分析を行うべきなのですが、理論的には関数のわかっている分布でないと分析ができなくなってしまいます。そのため、関数のよくわかっている分布を使って分析を行います。一般的に、マーケットの世界では正規分布がもっともよく使われています。正規分布は、釣鐘型のキレイな左右対称の分布です。

 

パチンコを例にとって説明します。パチンコ玉を上から真下に落とすと、パチンコ玉が1番上の釘に当たって左右のどちらかに移動します。確率は1/2。次にそのパチンコ玉が、2番目の釘に当たって左右のどちらかに移動します。これも確率は1/2。さらにその玉が、3番目の釘に当たって左右のどちらかに移動します。これも確率は1/2

 

02_542x640


同じように、たくさんのパチンコ玉を次から次へ真下に落として行くと、最終的には落した場所の真下にもっとも多くの玉が積み上がり、そこから左右になだらかなカーブを描きながら丸い山型の分布ができあがります。これが正規分布です(正確には2項分布といいます)。これはあくまでも一例ですが、分散が有限であれば、「あらゆる分布の平均は、標本数の増加とともに正規分布に近づく」という特徴があります。これを「中心極限定理」といいます[1]


また、中心極限定理には「大数の法則」という特徴があります。これは、1つの母集団から、一定数のデータを取り出し、その標本平均を作るとき、「データ数が多ければ多いほど、標本平均は母集団平均に近い数値をとる可能性が高くなる」というものです。大数の法則は保険商品の設計の際などに使われている確率の考え方で、加入者のうち、何人くらいが事故に遭ったり死亡したりするのかを推測するときに使われています。

 

ここで一定数のデータがどのくらい必要なのかということですが、株価データの取得期間を3か月とか短い期間にすると、データ数が少ないためこの法則がうまく働かず、あまり精度の高い分析ができなくなる可能性があります(株価データ数が多くなっていくと、「必然」に正規分布に近づくものの、株価データ数が少ないと、「偶然」に発生する値の割合が増えすぎて歪んだ分布データとなり、分析データの信頼度が低下するため。そのため、「中心極限定理」の持つ特徴を利用できない)。


どういうことかというと、釘の段数とパチンコ玉の数が少なすぎると「偶然」の発生する頻度が高くなってしまい、データの分布が歪んでしまう可能性が多いにあり得ます。正規分布を使って分析する上で、パチンコ玉の数と釘の段数はある程度の数がないと「必然」の法則が役に立たないのです(>_<)。。。

 

以上の理由から、マーケットの分析をする場合、株価データの取得期間を6か月とか1年くらいは遡ったほうがいいということになります。データの取得期間は「信用取引の期限が6か月だからそれ以上の期間のデータを取得する」という理由だけではなく、「一定期間のデータ数がないと「偶然」によって信頼に足りるだけの結果が出ない可能性が高い」という理由もあります。こういった観点からも、最低限6か月(できれば1年)以上はデータを取得するようにするべきでしょうね。

 

では今度は、パチンコの釘の位置はそのままで、釘の長さを横に長くしてみましょう。

 

03_640x491


今度は、山の裾野がだいぶ広がりました。ここからわかることは、散らばり具合が広がったということです。株価でいうと、値動きのブレ幅が大きくなったということですね(大丈夫だと思いますが、この山の端と端の意味は、最大値と最小値ではないですよ。

理論上、この山は永遠に続きます、いつまでもどこまでも...

偏差の例を思い出してください。A社の株の過去半年間の偏差が、-20、-51025、-100だったから、平均値100円からのブレ幅は14円くらい(86円~114円)だろうっていう説明のところね。)。

 

この山の裾野の長さが標準偏差ってことです。イメージとしては、標準偏差は、「平均値から「散らばりの幅」」を数値化したものです。山の大きさ、つまり標準偏差の値を揃えるというのは、こういうことなのです。だから山の大きさを同じくらいの幅と高さに揃えてあげないと偏差(平均からのバラツキ)が大きいほうの銘柄の片張り投資になってしまうというのはこういうことです(ピアノのところでも説明しましたよね)。


04_640x406_2

 

正規分布は中心極限定理の考え方を応用してマーケット分析をする上で、もっとも使われている分布です。標準偏差という数字は、この分布に対して非常に良くできています。

というより、むしろ話は逆で、「正規分布に都合よくあてはまる数字として標準偏差が選ばれた」というのが実情でしょうね。理系の方は何となく納得がいかないと思いますが、統計学は100%の科学的手法ではありません。このあたり、統計学というのは、文系向きの数学なのかもしれませんね。

 

[1] ここではパチンコ玉を例に玉が右に行くか左に行くかを説明しましたが、コイン投げでも何度も何度もやれば表と裏が出る確率は2分の1に限りなく近づいていきます。丁半博打も同じように何度も何度もやれば丁と半が出る確率は2分の1に限りなく近づいていきます。株取引も同じ。何度も何度もランダムに売買を繰り返せば勝率は50%に限りなく近づいていきます(いくはずです)。

このあたり「過去5年で勝率100%です!!」みたいな謳い文句のセールストークには大いに疑問を感じるところですが

 

お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

2013年12月12日 (木)

統計についてのお話 その④【標準偏差】


【標準偏差】

 

分散の正の平方根(ルート:√)を標準偏差といいます。√する理由は2つあります。

1つ目は、分散のままだとデータが大きすぎるので、株価データの幅として採用することができないからです(例を思い出してください、分散は208でしたね。過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円。最高値が110円(平均値100から10円のズレ)で最安値が80円(平均値100から20円のズレでしたから、ブレ幅はせいぜい1020円の間くらいでしょう。分散の208という数値は大きすぎますよね)。

そして2つ目は、偏差を2条した値が分散だったので、このままだと単位が違いますね。この時点での単位は、「株価変動幅」ではなくて「(株価変動幅)2」となっています。


そこで分散の√をとる処理を行うことで株価データの範囲として使えるようにします(√することによって、標準偏差は単位が変量と同じになります)。また、2条から計算した標準偏差は、次に説明する正規分布にあてはめやすいからです。

 

~~~~~~前回までの復習~~~~~~

例:A社の過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円だったとする。

 

単純平均を出す。

809511012590100)÷6100

平均は 100 となる。

 

偏差を出す。

それぞれの値から平均100を引いてあげる。

80100=-2095100=-5110100101251002590100=-101001000

偏差はそれぞれ、-20、-51025、-100 となる(平均値100からのズレ)。

全部足すと、(-20)+(-5)+1025+(-10)+00

これだとブレ幅がわからない。

そこで、偏差を2条してから足し算する。

(-202+(-52+(+102+(+252+(-102+(+02

400251006251000

1250

変動 1250 個体数 6

変動を個体数で割る。

1250÷6208.3333…..

よって、分散は ≒208.33 となる。

~~~~~~ここまで~~~~~~

 

分散は ≒208.33

ルートする

208.3314.4336…..

よって、標準偏差は ≒14.43 となる。

 

過去半年間のA株のブレ幅は14円くらいです。例を思い出してください。過去半年間の偏差が、-20、-51025、-100でしたから、(平均値100円からの)平均のブレ幅はだいたい14円くらい(86円~114円)だろうってことがわかりますね。

これは月足データの終値をイメージして作った例題ですが、通常は日足の終値のデータを使います(理由は、翌日のマーケットオープン時に仕掛けるため、直前のデータがもっとも有効性が高いと考えられるから。また、マーケットオープン時に仕掛けるのは市場参加者が多く、流動性が高いため、約定値が飛びにくいから)。

日足でやったらデータ数増えますし、月足データの終値だけではわからなかった高値とか安値とかの情報が出てくるので、どんどん分析の精度が上がっていきますね。さすがに分足とかティックデータで分析したことはありませんが(たぶんパソコンがフリーズすると思うw)。

 

ここでわかるのが、ベンチマークであるTOPIXのブレ幅と比較して大きいのか小さいのかということ。大きいものは全体の市場平均値より変動するわけだから、(ベンチマークと比べて)相対的にハイリスク、小さいものは市場平均値より変動しないわけだから、(ベンチマークと比べて)相対的にローリスクということですね。


もう説明したから大丈夫だと思うけど、標準偏差は両銘柄の山の大きさを合わせるために使うものです。標準偏差の大きい方をショートにして、小さい方をロングにするわけではないですよw 大きい小さいという判断基準は、β値、信用取引倍率、PERPBRなどに使ってくださいね。混乱しないように!


お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

2013年12月11日 (水)

統計についてのお話 その③【分散】


【分散】

 

分散は、「データの範囲が平均からどのくらいの広さに散らばっているか」を表した数値です。つまり、データが散らばっている広がりの範囲を数値化したものが分散です。

 

変動(偏差平方和)は株価データ数が大きくなるにしたがって、値も大きくなっていきます(2条していくからね)。イメージしてみてください。2条するということは、平均値からのズレを表す偏差が小さい(株価変動が小さい)データであっても、2条していくと株価データ数が増えれば、それに比例して値も大きくなりますね。


その欠点を避けるために、個体数(全株価データ数)で割ってみましょう。

 

~~~~~~前回までの復習~~~~~~

例:A社の過去半年間の月末の終値が、80円、95円、110円、105円、90円、100円だったとする。

 

単純平均を出す。

809511012590100)÷6100

平均は 100 となる。

 

偏差を出す。

それぞれの値から平均100を引いてあげる。

80100=-2095100=-5110100101251002590100=-101001000

偏差はそれぞれ、-20、-51025、-100 となる(平均値100からのズレ)。

全部足すと、(-20)+(-5)+1025+(-10)+00

これだとブレ幅がわからない。

そこで、偏差を2条してから足し算する。

(-202+(-52+(+102+(+252+(-102+(+02

400251006251000

1250

よって、変動は 1250 となる。

~~~~~~ここまで~~~~~~

 

変動 1250 個体数 6

変動を個体数で割る。

1250÷6208.3333…..

よって、分散は ≒208.33 となる。

 

この値が分散となります。つまり、分散とは「平均値からのズレを2条して、全株価データで割った平均値(偏差の2条平均)」といえます。


お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

その他のカテゴリー

フォト

カテゴリー

  • コラム・その他
    このブログとはあまり関係ないこともひまつぶしに書いてます。実はけっこう読んで欲しかったりします。
  • システム関連
    サヤ取り(ロングショート)に関する補足事項です。【トレード関連】・【統計関連】を理解した上で読んでください。いきなりこのカテゴリー開くと挫折するから要注意。
  • トレード関連
    サヤ取り(ロングショート)に関する記事です。このブログのメインテーマです。
  • 統計関連
    サヤ取り(ロングショート)をする上で最低限必要と思われる内容をまとめています。
無料ブログはココログ
2020年12月
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31