最近では、ビッグデータのような大量なデータが集められるようになりましたが、元々統計学は少ないデータから母集団の性質を推定するための手法と個人的には考えています。
サンプルデータが少ない場合、平均や分散といった統計量が、サンプルデータに偏ってしまい、母集団の真の統計量を正しく推定できない場合があります。
この真の統計量の値が含まれていそうだと思われる区間を推定する手法が区間推定です。
以下に、Rにおける区間推定の方法をまとめました。(随時更新もしていきます)
1標本の母平均の信頼区間の推定
- サンプルデータから、母集団の真の平均が含まれると思われる区間を推定する手法
- 信頼係数は、実際に母集団の真の平均が、区間に含まれる確率を表す
GitHub: https://github.com/Gin04gh/datascience/blob/master/samples_r/t-stats_confidence_interval.ipynb
2標本間の母相関の信頼区間の推定
- 2標本データから、母相関(真の相関係数)が含まれると思われる区間を推定する手法
- 信頼係数は、実際に母相関が、区間に含まれる確率を表す
- 母相関が無相関がどうかを調べる検定もある
- 参考: Rによる仮説検定まとめ
GitHub: https://github.com/Gin04gh/datascience/blob/master/samples_r/non-correlation_test.ipynb