統計についてのお話 その⑥【標本と推測統計】
【標本と推測統計】
世の中には多くのデータがありますが、それらのデータは有限であるものの、私たちは母集団そのもののデータ(一定期間の全TICKデータなど)を知ることはほぼ不可能です。そこで、「標本から母集団の性質を間接的に推測する」という推測統計の方法を説明します。具体的に株価分析では、標本データは「日足データの終値」を使用することになります。
まず、注意点として2つあります。1つは、標本と母集団は区別して考えること。そしてもう1つは、「標本は母集団の一部に過ぎないため、100%の精度ではない」ということです。正規分布のところで書いた「中心極限定理」を思い出してください。分散が有限であれば、「あらゆる分布の平均は、標本数の増加とともに正規分布に近づく」という特徴がありましたね。あくまでも近づくのであって、正規分布にはなりません。
たくさんの標本を作って平均値を出せば、標本の平均値の分布は正規分布に近くなりますね。そこで、正規分布ではないけれども、正規分布に当てはめて考えてみます。つまり、正規分布だと仮定して考えていくわけですから、「標本平均から母集団平均を推測する」という作業が必要になります。
ここで、正規分布の山をイメージしてください。正規分布の中心から見た範囲の大きさを指定してあげれば、その範囲の中に標本平均が含まれる確率を推測することができます(これを区間推定といいます)。
この区間推定とは、「ある結果を、ある一定の広さの範囲と、その範囲に含まれる確率の組み合わせ」によって推定する方法」です。区間推定において、推定値を含む区間のことを「信頼区間」といいます。
今、私たちには母集団がどんな形状の分布になっているかわかりません。しかし、標本平均はわかっています(この標本平均は、母集団平均に近いのか遠いのかはわかりません)。
そこで、標本平均が取り得る範囲を広げてみます。標本平均が取り得る範囲、つまり信頼区間を広げていけば、その中に母集団平均が含まれる確率が上がっていきます。
では、どれほど区間の幅を広げれば、どれだけ確率が上がるのか?
±1σ → 68.3%
±2σ → 95.44%
±3σ → 99.74%
正規分布は、「中心から±標準偏差分の範囲内(σ1)に全データの68.3%を、±2個分の標準偏差分の範囲内(σ2)に全データの95.44%を、±3個分の標準偏差分の範囲内(σ3)に全データの99.74%を含む」という特徴を持っています。
一般的に、統計の世界でもマーケットの世界でも、標準偏差+-2個分の95.44%を用いるのが習慣となっています。「正規分布表[1]」という、この分布のためだけに作られた特殊な表を見れば、信頼区間の範囲が95.44%になるのは、標準偏差1.96倍のときです。
さて、ここで問題が発生します。標準偏差をどうするか?標準偏差の1.96倍に95.44%のデータが入るだろうということはわかっても、標準偏差がわからないと、正規分布の横幅がどのくらいなのかわかりませんね。標準偏差の求め方は、√分散でしたよね。では分散はどうやって出したらいいのでしょう?
この場合は「大標本法」といって、標本の分散を母集団の平均とみなして使います。最初に標本と母集団を区別するように書きましたが、分散については、データ数が30以上ならば、結果はそれほど変わらないということが統計学的に証明されています(30以下の場合は、t検定という方法を使います)。
ここで、A社の株価の例を思い出してください。
~~~~~~前回までの復習~~~~~~
~~~~~~ここまで~~~~~~
大標本法を使うとこんな感じになります↓
A社の過去半年分のTICKデータを母集団とすると、それは現在の株価平均を母集団平均として、母集団の標準偏差が≒14.43の正規分布をしていたとする。この場合の95.44%の信頼区間(±σ2個分の標準偏差の範囲内)を求めてみます。
大標本法では、母集団平均がわからなくても標本平均を使って推定するのでしたね。だから標本平均の標準偏差に≒14.43を使います。株価の平均が、(80+95+110+125+90+100)÷6=100。データ6個の標本平均は100ですね。ここでは、求める母集団平均はμの記号を使います。
95.44%の信頼区間を求める不等式を作る。
↓
-1.96 ≦ (標本平均-母集団平均μ)÷標準偏差 ≦ +1.96
↓
よって、不等式は、
-1.96 ≦ (100-μ)÷14.43 ≦ +1.96
を満たす母集団平均の範囲を求めればよいということになります。
↓
14.43×(-1.96) ≦ 100-μ ≦ 14.43×(+1.96)
↓
-28.2828 ≦ 100-μ ≦ 28.2828
↓
100-28.2828 ≦ μ ≦ 100+28.2828
↓
よって、71.7172 ≦ μ ≦ 128.2828 となる。
はい、過去半年間の月末の終値データを使ってTICKデータのブレ幅を予測しました。ここから、おそらくA社の株価は過去半年間で71円~128円の中に95%のTICKデータが入っているらしいということがわかりました。
思い出してください(何度もすいません)。
例:A社の過去半年間の株価は、80円、95円、110円、105円、90円、100円だったとする。
A社の平均値が100円、最高値が110円、最安値が80円(平均からの誤差:-20円~+10円)ですから、71円~128円(平均からの誤差:-29~+28円)の中にだいたい納まっているようですね(少し誤差が気になるところですが)。今はデータ数が6個しかなかったけど、これを増やしていくと最安値が71円、最高値が128円くらいにどんどん近づいていきます(理論上は)。その理由は、中心極限定理の特徴である「大数の法則」を思い出してください。「データ数が多ければ多いほど、標本平均は母集団平均に近い数値をとる可能性が高くなる」でしたよね。
次は、この考え方を応用した「ボリンジャーバンド」というトレンド系のテクニカル指標についてざっくり書いてみますよ♪
[1] 正規分布表
お知らせ【ブログを移転しました】
« 統計についてのお話 その⑤【正規分布】 | トップページ | 統計についてのお話 その⑦【ボリンジャーバンド】 »
「統計関連」カテゴリの記事
- 参考文献・資料(2013.11.24)
- 統計についてのお話 【まとめ②】(2013.12.26)
- 統計についてのお話 その⑩【回帰方程式と決定係数】(2013.12.26)
- 統計についてのお話 その⑨【回帰分析と回帰係数】(2013.12.26)
- 統計についてのお話 その⑧【相関分析と相関係数】(2013.12.26)
この記事へのコメントは終了しました。
コメント