数学公式集

データの分析

データの代表値
大きさ $n$ のデータ $x_1$,$x_2$,$\cdots$,$x_n$ について,
  • 平均値 $\cdots$ $\overline{x}=\dfrac{1}{n}(x_1+x_2+\cdots\cdots+x_n)=\dfrac{1}{n}\sum\limits_{k=1}^{n}x_k$
  • 中央値(メジアン)$\cdots$
    データを大きさの順に並べたとき,中央にくる値.
    $n$ が偶数ならば,中央にくる2つの値の平均.

    中央値を式で表すと, \[ \text{$n$ が奇数のとき,}x_{\frac{n+1}{2}}\qquad \text{$n$ が偶数のとき,}\dfrac{x_{\frac{n\vphantom{+}}{2}}+x_{\frac{n+2}{2}}}{2} \]
  • 最頻値(モード)$\cdots$ 
    データにおいて,最も個数の多い値.
    最頻値は2つ以上存在する場合もある.
度数分布表
右の図の度数分布表において,
  • 階級の幅 $\cdots$ $a_{i+1}-a_i$
  • 階級値 $\cdots$ $x_i=\dfrac{a_i+a_{i+1}}{2}$
  • 最頻値(モード)$\cdots$
    度数 $f_i$ が最大となる階級の
    階級値 $x_i$
  • 平均値 $\cdots$ $\overline{x}=\dfrac{1}{n}(x_1 f_1+x_2 f_2+\cdots\cdots+x_r f_r)=\dfrac{1}{n}\sum\limits_{k=1}^{r}x_k f_k$
階級階級値度数相対度数
$a_{1\,}$以上 $a_{2\,}$未満$x_1$$f_1$$f_1/n$
$a_{2\,}$以上 $a_{3\,}$未満$x_2$$f_2$$f_2/n$
$\vdots$$\vdots$$\vdots$$\vdots$
$a_{r\,}$以上 $a_{r+1\,}$未満$x_r$$f_r$$f_r/n$
$n$$1$
データの散らばり
データを値の小さい方から順に並べたものを $x_1$,$x_2$,$\cdots$,$x_n$ とする.
  • 範囲 $\cdots$ $x_n-x_1$
  • 四分位数 $\cdots$ $n$ を $4$ で割ったときの余りに応じて,4種類の決め方がある.
    • $n=4m$ のとき,
      第1四分位数 $Q_1=\dfrac{x_{m}+x_{m+1}}{2}$
      第2四分位数 $Q_2=\dfrac{x_{2m}+x_{2m+1}}{2}$
      第3四分位数 $Q_3=\dfrac{x_{3m}+x_{3m+1}}{2}$
    • $n=4m+1$ のとき,
      第1四分位数 $Q_1=\dfrac{x_{m}+x_{m+1}}{2}$
      第2四分位数 $Q_2=x_{2m+1}$
      第3四分位数 $Q_3=\dfrac{x_{3m+1}+x_{3m+2}}{2}$
    • $n=4m+2$ のとき,
      第1四分位数 $Q_1=x_{m+1}$
      第2四分位数 $Q_2=\dfrac{x_{2m+1}+x_{2m+2}}{2}$
      第3四分位数 $Q_3=x_{3m+2}$
    • $n=4m+3$ のとき,
      第1四分位数 $Q_1=x_{m+1}$
      第2四分位数 $Q_2=x_{2m+2}$
      第3四分位数 $Q_3=x_{3m+3}$
  • 四分位範囲 $\cdots$ $Q_3-Q_1\qquad$
  • 四分位偏差 $\cdots$ $\dfrac{Q_3-Q_1}{2}$
  • 箱ひげ図 $\cdots$ データの最小値 $x_1$,第1四分位数 $Q_1$,第2四分位数(中央値)$Q_2$, 第3四分位数 $Q_3$,最大値 $x_n$を長方形(箱)と線(ひげ)で表した図. $+$ で平均値 $\overline{x}$ を記入することもある.
箱ひげ図の例
(※ 箱ひげ図は縦方向に書かれることもある.)
分散・標準偏差
変量 $x$ についてのデータの値が,$x_1$,$x_2$,$\cdots$,$x_n$で与えられているとし,その平均値を $\overline{x}$ とする.
  • 偏差 $\cdots$ $x_i-\overline{x}$
  • 分散 $\cdots$
    $s^2=\dfrac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots\cdots+(x_n-\overline{x})^2\}$
    $\phantom{s^2}=\dfrac{1}{n}\sum\limits_{k=1}^{n}(x_k-\overline{x})^2=\dfrac{1}{n}\sum\limits_{k=1}^{n}{x_k}^2-(\overline{x})^2=\overline{x^2}-(\overline{x})^2$
  • 標準偏差 $\cdots$
    $s=\sqrt{\dfrac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots\cdots+(x_n-\overline{x})^2\}}$
    $\phantom{s}=\sqrt{\dfrac{1}{n}\smash{\sum\limits_{k=1}^{n}}(x_k-\overline{x})^2}=\sqrt{\dfrac{1}{n}\sum\limits_{k=1}^{n}{x_k}^2-(\overline{x})^2}=\sqrt{\,\overline{x^2}-(\overline{x})^2}$
変量の変換
  • 変量 $x$ の平均値を $\overline{x}$,標準偏差を $s_x$ とする.定数 $a$,$b$ を用いて,$y_i=ax_i+b$ で定められる変量 $y$ の平均値を $\overline{y}$,標準偏差を $s_y$ とすると,
    • $\overline{y}=a\overline{x}+b$
    • $s_y=|a|s_x$
  • 変量 $x$ の平均値 $\overline{x}$ や標準偏差 $s_x$ を計算するとき,仮平均 $x_0$ と定数 $c$ を適当に選び,$x_i=cu_i+x_0$ で定められる変量 $u$ の平均値 $\overline{u}$ や標準偏差 $s_u$ を先に計算して, \[ \overline{x}=c\overline{u}+x_0,\qquad s_x=|c|s_u \] なる関係式から $\overline{x}$,$s_x$ を求める方が計算が楽なことがある.
標準測度・偏差値
変量 $x$ の平均値を $\overline{x}$,標準偏差を $s$ とする.
  • 標準測度 $\cdots$ $z_i=\dfrac{x_i-\overline{x}}{s}$ で定められる変量 $z$ の平均値は $0$,標準偏差は $1$ である.
  • 偏差値 $\cdots$ $t_i=\dfrac{x_i-\overline{x}}{s}\times 10+50$ で定められる変量 $t$ の平均値は $50$,標準偏差は $10$ である.
データの相関
データの大きさがともに $n$ である2つの変量 $x$,$y$ を \[ x:\text{$x_1$,$x_2$,$\cdots\cdots$,$x_n\qquad$}y:\text{$y_1$,$y_2$,$\cdots\cdots$,$y_n$} \] とし,$x$,$y$ の平均をそれぞれ $\overline{x}$,$\overline{y}$,標準偏差をそれぞれ $s_x$,$s_y$ とする.
  • 散布図 $\cdots$ $x$,$y$ の値の組 \[ (x_i,\,y_i)\quad (i=1,\,2,\,\cdots\cdots,\,n) \] を座標平面上にとったもの.
  • 相関関係
    • 正の相関関係 $\cdots$ 一方が増えると他方も増える傾向があるとき
    • 負の相関関係 $\cdots$ 一方が増えると他方は減る傾向があるとき
    • どちらでもない場合,相関関係がないという.
  • 共分散 $\cdots$
    $s_{xy}=\dfrac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots\cdots+(x_n-\overline{x})(y_n-\overline{y})\}$
    $\phantom{s_{xy}}=\dfrac{1}{n}\sum\limits_{k=1}^{n}(x_k-\overline{x})(y_k-\overline{y})$
  • 相関係数 $\cdots$
    $r=\dfrac{s_{xy}}{s_x s_y}$
    $\phantom{r}=\dfrac{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})}{\sqrt{\vphantom{\big(}\{(x_1-\overline{x})^2+\cdots+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+\cdots+(y_n-\overline{y})^2\}}}$
    $\phantom{r}=\dfrac{\sum\limits_{k=1}^{n}(x_k-\overline{x})(y_k-\overline{y})}{\sqrt{\Big\{\sum\limits_{k=1}^{n}(x_k-\overline{x})^2\Big\}\Big\{\sum\limits_{k=1}^{n}(y_k-\overline{y})^2\Big\}}}$
  • 相関係数の性質 $\cdots$ 相関係数 $r$ は $-1\leqq r\leqq 1$ を満たし,
    • $r$ が $1$ に近いとき $\longrightarrow$ 強い正の相関関係
    • $r$ が $-1$ に近いとき $\longrightarrow$ 強い負の相関関係
    • $r$ が $0$ に近いとき $\longrightarrow$ 直線的な相関関係はない
  • 変量の変換 $\cdots$ 定数 $a$,$b$,$c$,$d$ を用いて,変量 $u$,$v$ を, \[ u_i=ax_i+b,\qquad v_i=cy_i+d \] と定める.ただし,$a\neq 0$,$c\neq 0$ とする.変量 $u$,$v$ の標準偏差をそれぞれ $s_u$,$s_v$,$u$ と $v$ の共分散を $s_{uv}$, $u$ と $v$ の相関係数を $r_{uv}$,$x$ と $y$ の相関係数を $r_{xy}$ とすると,
    • $s_{uv}=ac s_{xy}$
    • $r_{uv}=\dfrac{s_{uv}}{s_u s_v}=\dfrac{ac s_{xy}}{|a|s_x |c|s_y}=\dfrac{ac}{|ac|}r_{xy}=\begin{cases}r_{xy} & (ac>0)\\ -r_{xy} & (ac<0)\end{cases}$
体験授業のお申し込み,お問い合わせはこちらから
お問い合わせ