データの分析
データの代表値
大きさ $n$ のデータ $x_1$,$x_2$,$\cdots$,$x_n$ について,
- 平均値 $\cdots$ $\overline{x}=\dfrac{1}{n}(x_1+x_2+\cdots\cdots+x_n)=\dfrac{1}{n}\sum\limits_{k=1}^{n}x_k$
- 中央値(メジアン)$\cdots$ データを大きさの順に並べたとき,中央にくる値.
$n$ が偶数ならば,中央にくる2つの値の平均.
中央値を式で表すと, \[ \text{$n$ が奇数のとき,}x_{\frac{n+1}{2}}\qquad \text{$n$ が偶数のとき,}\dfrac{x_{\frac{n\vphantom{+}}{2}}+x_{\frac{n+2}{2}}}{2} \] - 最頻値(モード)$\cdots$ データにおいて,最も個数の多い値.
最頻値は2つ以上存在する場合もある.
度数分布表
右の図の度数分布表において,
- 階級の幅 $\cdots$ $a_{i+1}-a_i$
- 階級値 $\cdots$ $x_i=\dfrac{a_i+a_{i+1}}{2}$
- 最頻値(モード)$\cdots$ 度数 $f_i$ が最大となる階級の
階級値 $x_i$
- 平均値 $\cdots$ $\overline{x}=\dfrac{1}{n}(x_1 f_1+x_2 f_2+\cdots\cdots+x_r f_r)=\dfrac{1}{n}\sum\limits_{k=1}^{r}x_k f_k$
階級 | 階級値 | 度数 | 相対度数 |
$a_{1\,}$以上 $a_{2\,}$未満 | $x_1$ | $f_1$ | $f_1/n$ |
$a_{2\,}$以上 $a_{3\,}$未満 | $x_2$ | $f_2$ | $f_2/n$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
$a_{r\,}$以上 $a_{r+1\,}$未満 | $x_r$ | $f_r$ | $f_r/n$ |
計 | $n$ | $1$ |
データの散らばり
データを値の小さい方から順に並べたものを $x_1$,$x_2$,$\cdots$,$x_n$ とする.
- 範囲 $\cdots$ $x_n-x_1$
- 四分位数 $\cdots$ $n$ を $4$ で割ったときの余りに応じて,4種類の決め方がある.
- $n=4m$ のとき,第1四分位数 $Q_1=\dfrac{x_{m}+x_{m+1}}{2}$
第2四分位数 $Q_2=\dfrac{x_{2m}+x_{2m+1}}{2}$
第3四分位数 $Q_3=\dfrac{x_{3m}+x_{3m+1}}{2}$ - $n=4m+1$ のとき,第1四分位数 $Q_1=\dfrac{x_{m}+x_{m+1}}{2}$
第2四分位数 $Q_2=x_{2m+1}$
第3四分位数 $Q_3=\dfrac{x_{3m+1}+x_{3m+2}}{2}$ - $n=4m+2$ のとき,第1四分位数 $Q_1=x_{m+1}$
第2四分位数 $Q_2=\dfrac{x_{2m+1}+x_{2m+2}}{2}$
第3四分位数 $Q_3=x_{3m+2}$ - $n=4m+3$ のとき,第1四分位数 $Q_1=x_{m+1}$
第2四分位数 $Q_2=x_{2m+2}$
第3四分位数 $Q_3=x_{3m+3}$
- $n=4m$ のとき,
- 四分位範囲 $\cdots$ $Q_3-Q_1\qquad$
- 四分位偏差 $\cdots$ $\dfrac{Q_3-Q_1}{2}$
- 箱ひげ図 $\cdots$ データの最小値 $x_1$,第1四分位数 $Q_1$,第2四分位数(中央値)$Q_2$, 第3四分位数 $Q_3$,最大値 $x_n$を長方形(箱)と線(ひげ)で表した図. $+$ で平均値 $\overline{x}$ を記入することもある.
(※ 箱ひげ図は縦方向に書かれることもある.)
分散・標準偏差
変量 $x$ についてのデータの値が,$x_1$,$x_2$,$\cdots$,$x_n$で与えられているとし,その平均値を $\overline{x}$ とする.
- 偏差 $\cdots$ $x_i-\overline{x}$
- 分散 $\cdots$ $s^2=\dfrac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots\cdots+(x_n-\overline{x})^2\}$
$\phantom{s^2}=\dfrac{1}{n}\sum\limits_{k=1}^{n}(x_k-\overline{x})^2=\dfrac{1}{n}\sum\limits_{k=1}^{n}{x_k}^2-(\overline{x})^2=\overline{x^2}-(\overline{x})^2$ - 標準偏差 $\cdots$ $s=\sqrt{\dfrac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots\cdots+(x_n-\overline{x})^2\}}$
$\phantom{s}=\sqrt{\dfrac{1}{n}\smash{\sum\limits_{k=1}^{n}}(x_k-\overline{x})^2}=\sqrt{\dfrac{1}{n}\sum\limits_{k=1}^{n}{x_k}^2-(\overline{x})^2}=\sqrt{\,\overline{x^2}-(\overline{x})^2}$
変量の変換
- 変量 $x$ の平均値を $\overline{x}$,標準偏差を $s_x$ とする.定数 $a$,$b$ を用いて,$y_i=ax_i+b$ で定められる変量 $y$ の平均値を $\overline{y}$,標準偏差を $s_y$ とすると,
- $\overline{y}=a\overline{x}+b$
- $s_y=|a|s_x$
- 変量 $x$ の平均値 $\overline{x}$ や標準偏差 $s_x$ を計算するとき,仮平均 $x_0$ と定数 $c$ を適当に選び,$x_i=cu_i+x_0$ で定められる変量 $u$ の平均値 $\overline{u}$ や標準偏差 $s_u$ を先に計算して, \[ \overline{x}=c\overline{u}+x_0,\qquad s_x=|c|s_u \] なる関係式から $\overline{x}$,$s_x$ を求める方が計算が楽なことがある.
標準測度・偏差値
変量 $x$ の平均値を $\overline{x}$,標準偏差を $s$ とする.
- 標準測度 $\cdots$ $z_i=\dfrac{x_i-\overline{x}}{s}$ で定められる変量 $z$ の平均値は $0$,標準偏差は $1$ である.
- 偏差値 $\cdots$ $t_i=\dfrac{x_i-\overline{x}}{s}\times 10+50$ で定められる変量 $t$ の平均値は $50$,標準偏差は $10$ である.
データの相関
データの大きさがともに $n$ である2つの変量 $x$,$y$ を
\[ x:\text{$x_1$,$x_2$,$\cdots\cdots$,$x_n\qquad$}y:\text{$y_1$,$y_2$,$\cdots\cdots$,$y_n$} \]
とし,$x$,$y$ の平均をそれぞれ $\overline{x}$,$\overline{y}$,標準偏差をそれぞれ $s_x$,$s_y$ とする.
- 散布図 $\cdots$ $x$,$y$ の値の組 \[ (x_i,\,y_i)\quad (i=1,\,2,\,\cdots\cdots,\,n) \] を座標平面上にとったもの.
- 相関関係
- 正の相関関係 $\cdots$ 一方が増えると他方も増える傾向があるとき
- 負の相関関係 $\cdots$ 一方が増えると他方は減る傾向があるとき
- どちらでもない場合,相関関係がないという.
- 共分散 $\cdots$ $s_{xy}=\dfrac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots\cdots+(x_n-\overline{x})(y_n-\overline{y})\}$
$\phantom{s_{xy}}=\dfrac{1}{n}\sum\limits_{k=1}^{n}(x_k-\overline{x})(y_k-\overline{y})$ - 相関係数 $\cdots$ $r=\dfrac{s_{xy}}{s_x s_y}$
$\phantom{r}=\dfrac{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})}{\sqrt{\vphantom{\big(}\{(x_1-\overline{x})^2+\cdots+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+\cdots+(y_n-\overline{y})^2\}}}$
$\phantom{r}=\dfrac{\sum\limits_{k=1}^{n}(x_k-\overline{x})(y_k-\overline{y})}{\sqrt{\Big\{\sum\limits_{k=1}^{n}(x_k-\overline{x})^2\Big\}\Big\{\sum\limits_{k=1}^{n}(y_k-\overline{y})^2\Big\}}}$ - 相関係数の性質 $\cdots$ 相関係数 $r$ は $-1\leqq r\leqq 1$ を満たし,
- $r$ が $1$ に近いとき $\longrightarrow$ 強い正の相関関係
- $r$ が $-1$ に近いとき $\longrightarrow$ 強い負の相関関係
- $r$ が $0$ に近いとき $\longrightarrow$ 直線的な相関関係はない
- 変量の変換 $\cdots$ 定数 $a$,$b$,$c$,$d$ を用いて,変量 $u$,$v$ を,
\[ u_i=ax_i+b,\qquad v_i=cy_i+d \]
と定める.ただし,$a\neq 0$,$c\neq 0$ とする.変量 $u$,$v$ の標準偏差をそれぞれ $s_u$,$s_v$,$u$ と $v$ の共分散を $s_{uv}$,
$u$ と $v$ の相関係数を $r_{uv}$,$x$ と $y$ の相関係数を $r_{xy}$ とすると,
- $s_{uv}=ac s_{xy}$
- $r_{uv}=\dfrac{s_{uv}}{s_u s_v}=\dfrac{ac s_{xy}}{|a|s_x |c|s_y}=\dfrac{ac}{|ac|}r_{xy}=\begin{cases}r_{xy} & (ac>0)\\ -r_{xy} & (ac<0)\end{cases}$