« 統計についてのお話 その④【標準偏差】 | トップページ | 統計についてのお話 その⑥【標本と推測統計】 »

2013年12月15日 (日)

統計についてのお話 その⑤【正規分布】


【正規分布】

 

株価のデータをたくさん集めてヒストグラムを作ると、ある決まった形(分布)が現れます。

                             

01_640x464


本来は、現実に起こった分布を当てはめて分析を行うべきなのですが、理論的には関数のわかっている分布でないと分析ができなくなってしまいます。そのため、関数のよくわかっている分布を使って分析を行います。一般的に、マーケットの世界では正規分布がもっともよく使われています。正規分布は、釣鐘型のキレイな左右対称の分布です。

 

パチンコを例にとって説明します。パチンコ玉を上から真下に落とすと、パチンコ玉が1番上の釘に当たって左右のどちらかに移動します。確率は1/2。次にそのパチンコ玉が、2番目の釘に当たって左右のどちらかに移動します。これも確率は1/2。さらにその玉が、3番目の釘に当たって左右のどちらかに移動します。これも確率は1/2

 

02_542x640


同じように、たくさんのパチンコ玉を次から次へ真下に落として行くと、最終的には落した場所の真下にもっとも多くの玉が積み上がり、そこから左右になだらかなカーブを描きながら丸い山型の分布ができあがります。これが正規分布です(正確には2項分布といいます)。これはあくまでも一例ですが、分散が有限であれば、「あらゆる分布の平均は、標本数の増加とともに正規分布に近づく」という特徴があります。これを「中心極限定理」といいます[1]


また、中心極限定理には「大数の法則」という特徴があります。これは、1つの母集団から、一定数のデータを取り出し、その標本平均を作るとき、「データ数が多ければ多いほど、標本平均は母集団平均に近い数値をとる可能性が高くなる」というものです。大数の法則は保険商品の設計の際などに使われている確率の考え方で、加入者のうち、何人くらいが事故に遭ったり死亡したりするのかを推測するときに使われています。

 

ここで一定数のデータがどのくらい必要なのかということですが、株価データの取得期間を3か月とか短い期間にすると、データ数が少ないためこの法則がうまく働かず、あまり精度の高い分析ができなくなる可能性があります(株価データ数が多くなっていくと、「必然」に正規分布に近づくものの、株価データ数が少ないと、「偶然」に発生する値の割合が増えすぎて歪んだ分布データとなり、分析データの信頼度が低下するため。そのため、「中心極限定理」の持つ特徴を利用できない)。


どういうことかというと、釘の段数とパチンコ玉の数が少なすぎると「偶然」の発生する頻度が高くなってしまい、データの分布が歪んでしまう可能性が多いにあり得ます。正規分布を使って分析する上で、パチンコ玉の数と釘の段数はある程度の数がないと「必然」の法則が役に立たないのです(>_<)。。。

 

以上の理由から、マーケットの分析をする場合、株価データの取得期間を6か月とか1年くらいは遡ったほうがいいということになります。データの取得期間は「信用取引の期限が6か月だからそれ以上の期間のデータを取得する」という理由だけではなく、「一定期間のデータ数がないと「偶然」によって信頼に足りるだけの結果が出ない可能性が高い」という理由もあります。こういった観点からも、最低限6か月(できれば1年)以上はデータを取得するようにするべきでしょうね。

 

では今度は、パチンコの釘の位置はそのままで、釘の長さを横に長くしてみましょう。

 

03_640x491


今度は、山の裾野がだいぶ広がりました。ここからわかることは、散らばり具合が広がったということです。株価でいうと、値動きのブレ幅が大きくなったということですね(大丈夫だと思いますが、この山の端と端の意味は、最大値と最小値ではないですよ。

理論上、この山は永遠に続きます、いつまでもどこまでも...

偏差の例を思い出してください。A社の株の過去半年間の偏差が、-20、-51025、-100だったから、平均値100円からのブレ幅は14円くらい(86円~114円)だろうっていう説明のところね。)。

 

この山の裾野の長さが標準偏差ってことです。イメージとしては、標準偏差は、「平均値から「散らばりの幅」」を数値化したものです。山の大きさ、つまり標準偏差の値を揃えるというのは、こういうことなのです。だから山の大きさを同じくらいの幅と高さに揃えてあげないと偏差(平均からのバラツキ)が大きいほうの銘柄の片張り投資になってしまうというのはこういうことです(ピアノのところでも説明しましたよね)。


04_640x406_2

 

正規分布は中心極限定理の考え方を応用してマーケット分析をする上で、もっとも使われている分布です。標準偏差という数字は、この分布に対して非常に良くできています。

というより、むしろ話は逆で、「正規分布に都合よくあてはまる数字として標準偏差が選ばれた」というのが実情でしょうね。理系の方は何となく納得がいかないと思いますが、統計学は100%の科学的手法ではありません。このあたり、統計学というのは、文系向きの数学なのかもしれませんね。

 

[1] ここではパチンコ玉を例に玉が右に行くか左に行くかを説明しましたが、コイン投げでも何度も何度もやれば表と裏が出る確率は2分の1に限りなく近づいていきます。丁半博打も同じように何度も何度もやれば丁と半が出る確率は2分の1に限りなく近づいていきます。株取引も同じ。何度も何度もランダムに売買を繰り返せば勝率は50%に限りなく近づいていきます(いくはずです)。

このあたり「過去5年で勝率100%です!!」みたいな謳い文句のセールストークには大いに疑問を感じるところですが

 

お知らせ【ブログを移転しました


にほんブログ村 先物取引ブログ サヤ取りへ
にほんブログ村


金融・投資 ブログランキングへ

 

« 統計についてのお話 その④【標準偏差】 | トップページ | 統計についてのお話 その⑥【標本と推測統計】 »

統計関連」カテゴリの記事

コメント

この記事へのコメントは終了しました。

フォト

カテゴリー

  • コラム・その他
    このブログとはあまり関係ないこともひまつぶしに書いてます。実はけっこう読んで欲しかったりします。
  • システム関連
    サヤ取り(ロングショート)に関する補足事項です。【トレード関連】・【統計関連】を理解した上で読んでください。いきなりこのカテゴリー開くと挫折するから要注意。
  • トレード関連
    サヤ取り(ロングショート)に関する記事です。このブログのメインテーマです。
  • 統計関連
    サヤ取り(ロングショート)をする上で最低限必要と思われる内容をまとめています。
無料ブログはココログ
2020年12月
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31