統計学について
記述統計と推測統計
対象の全データを母集団といいます。母集団から一部を抽出したものを標本といいます。 記述統計は母集団を調べ, 正しく効率的に集団の特徴を捉えるためのものです。推測統計は母集団の一部である標本から母集団を推測するものです。
1変数の記述統計
変数が一つの場合の記述統計についてみていきます。データを分析する際に母集団の特徴をつかむために基本統計量を用います。
基本統計量
- 母平均
- 母分散
- 母標準偏差
- メディアン(中央値)
- モード(最頻値)
n個からなるデータの値を \( x_1, x_2, x_3 … x_n\) としたときの基本統計量を考えていきます。
母平均
\[ \bar{x} = \frac{1}{n} \displaystyle \sum_{i=1}^n x_i \]
母分散
母集団のバラツキの指標となる値です。分散とはつまり平均からのデータの広がり具合のことになります。この値が小さいということは平均付近にデータが集まっており、逆に大きいということは散らばっているということになります。
\[ \sigma^{2} = \frac{1}{n} \displaystyle \sum_{i=1}^n (x_i - \bar{x})^2 \]
母標準偏差
母分散同様母集団のバラツキの指標となる値ですが、データと同じ次数で比較することができます。
\[ \sigma = \sqrt{\sigma^2} \]
メディアン
データを順番に並べたときにnが奇数の場合は中央の値、nが偶数の場合は中央の値2つの平均値になります。
モード
回数が最も多く現れるデータの値です。
2変数の記述統計
変数が2つの場合の記述統計についてみていきます。2つの変数の関係をつかむために下記の値を用います。
共分散
2変数のデータの散らばり具合を表す指標として共分散があります。変量xの平均値を\(\bar{x} \)、変量yの平均値を \( \bar{y} \)とした場合、共分散\(\sigma_{xy} \)は下記の式で求められます。
\[ \sigma_{xy} = \frac{1}{n} \displaystyle \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) \]
相関係数
相関係数は名前の通り2つの変量の相関を調べることのできる値です。変量xの標準偏差をを\(\sigma_{x} \)、変量yの標準偏差を \( \sigma_{y} \)とした場合、相関係数rは下記の式で求められます。
\begin{eqnarray} r = \frac{\sigma_{xy}}{\sigma_x \sigma_y} = \frac{\displaystyle \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\displaystyle \sum_{i=1}^n (x_i - \bar{x})^2 } \sqrt { \displaystyle \sum_{i=1}^n (y_i - \bar{y})^2}} \end{eqnarray}
相関係数は \( -1 \geqq r \geqq 1 \)となり、この値を調べることにより下記のような判断ができます。
- 1に近づくほど正の相関が強い
- 0 相関なし
- -1に近づくほど負の相関が強い
回帰分析
2変数の間に相関があるときにその関係を定量的な式に表すことを回帰分析といいます。特に単回帰分析と呼ばれる分析手法についてみていきます。
単回帰分析
2変数の間の相関を線形な関係( \( y = ax + b \) )として分析する手法が単回帰分析です。この直線を回帰直線といいます。この時、最小二乗法と呼ばれる手法を用いて回帰直線と実際のデータの誤差を求めて一番誤差が小さくなるパラメータa, bを探ります。前述の相関係数の絶対値が大きい時に有効な手法です。
最小二乗法
データと回帰直線の誤差の二乗和を求め、誤差が最小になるa, bの値を求めていくのが最小二乗法になります。
データを \( (x_i, y_i) (i = 1, 2, 3 ….n) \) としたとき、二乗和Lは下記のようになります。
\begin{eqnarray} L &=& \displaystyle \sum_{i=1}^n (y_i - (ax_i + b))^2 \\\ &=& \displaystyle \sum_{i=1}^n (y_i - ax_i - b)^2 \end{eqnarray}
この式をa, bで偏微分して0になる値を求めます。
\begin{eqnarray} a &=& \ \frac{\sigma_{xy}}{\sigma_x^2} \\\ b &=& \bar{y} -a\bar{x} \end{eqnarray}
寄与率
回帰分析の精度を評価する指標として寄与率(決定係数)があります。1に近づくほど回帰分析の精度が良いことになります。寄与率は相関係数の二乗に等しい値になります。
\begin{eqnarray} R = r^2 = \frac{\sigma_{xy}^2}{\sigma_x^2 \sigma_y^2} \end{eqnarray}
共分散・相関係数・回帰分析の例
下記の表のような身長、体重のデータがあった場合に、身長と体重の共分散と相関係数の値を調べていきます。
身長 | 体重 |
---|---|
140.2 | 56.4 |
155.0 | 52.9 |
163.5 | 72.2 |
172.1 | 68.1 |
178.6 | 79.7 |
|
|
|
|
離散確率分布
離散確率分布における言葉の整理をしていきます。
- 試行: 何度も繰り返し行える物事。独立な試行。
- 事象: 試行した結果現れた現象
- 根元事象: これ以上分解できない事象
- 標本空間(全事象): ある試行における全ての根元事象を集めたもの
サイコロを振るケースに当てはめると、
- 試行: サイコロを振る
- 事象: 偶数が出る
- 根元事象: 2が出る, 4が出る, 6が出る
- 標本空間: 1が出る, 2が出る, 3が出る, 4が出る, 5が出る, 6が出る
標本空間をU, 事象をAとし, どの事象も同程度に確からしい場合n(A)を事象Aに属する根元事象の数, n(U)を全事象の数とすると、
\[ P(A) = \frac{n(A)}{n(U)} \]
全事象の根元事象一つ一つに割り当てられた数値を確率変数と呼びます。 例えばサイコロを振った場合の全事象Uは
U = {1が出る, 2が出る, 3が出る, 4が出る, 5が出る, 6が出る} で根元事象にサイコロの目の数を割り当てる時、 確率変数X = 1, 2, 3 ,4, 5, 6 となります。この値を実現値と呼びます。
また、確率関数とはそれぞれの根元事象が発生する確率で、確率関数Piは確率変数がiとなる確率のことです。 \( P_i = \frac{1}{6} (i = 1, 2, 3,… 6) \)となります。
累積分布関数はPiの総和となります。この値は1になります。
\[ F(x) = \sum_{i=1}^{n} P_i = 1\]
期待値とはつまり平均値のことであるが、正確には確率の重み付平均のことです。
\[ \mu = E[X] = \sum_{i = 1}^{n} x_{i}P_{i} = x_1P_1 + x_2P_2 + x_3P_3 + … + x_{n}P_{n} \]
分散とはつまり平均 \( \mu \) との平均的な広がり具合のことになります。この値が小さいということは平均付近にデータが集まっており、逆に大きいということは散らばっているということになります。
\[ \sigma^{2} = V[X] = \sum_{i = 1}^{n} (x_{i} - \mu)^2P_i = (x_1 - \mu)^2P_1 + (x_2 - \mu)^2P_2 + \cdots + (x_n - \mu)^2P_{n} \]
分散を求める下記の公式は有用です。
\[ \sigma^2 = V[X] = E[X^2] - E[X] \cdot E[X] \]
標準偏差も同様に広がり具合になりますが、実現値と同じ次数で比較することができます。
\[ \sigma = \sqrt{V[X]} \]