現在の位置 :

基本用語集

移動平均 moving average

時間に伴って観測される(時系列データ)データの季節変動や誤差変動をスムージング(平滑化)するため、前後のいくつかのデータの平均の系列データに変換すること。または、変換した系列データ。
たとえば、月別データで「3か月移動平均」とは、連続する3か月のデータを平均し、その中央の月(2か月目)のデータの代替値としてその平均を使用するものであり、1月の移動平均値は、前年の12月、当年の1月、2月の3か月の平均値になる。

階級 class

量的データで、度数分布表やヒストグラムを作るとき、データの範囲をいくつかに分けた区間をいう。
例:身長165cm以上170cm未満の階級

確率 probability

ある事柄が起こる確からしさのこと。
例:コインを投げた時に表が出る確率は50%である。

確率分布 probability distribution

確率変数がある値をとる、もしくは値の範囲に入る確率がいくらか、表したもの。
例:サイコロの目の確率分布

X 1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6 1

確率変数 random variable

どの値をとるか確実には分からず、確率的に決まる変数のことをいう。
例えば、サイコロを振ったときに出る目の数は、確率変数である。

近似値 approximate value

必ずしも真の値ではないものの、真の値に近いものを近似値という。
例えば、円周率は3.14159265・・であるが、3.14はこの近似値である。
身長を測るときも、実際には真の値はミクロン単位、あるいはさらに細かい単位で存在するが、一般にそれを正確に測ることはない。その意味では「A君の身長は175cmだ」というのも、近似値である。

グラフ graph

数量を、見やすく図にあらわしたもの。
統計では、棒グラフや折れ線グラフ、円グラフなどを用いて、結果を分かりやすく表すことが重要である。

構成比 propotion

全体を100パーセントとしたときの、それぞれの内訳の割合。
例:3年5組の男女の構成比は、男子46%、女子54%である。

誤差 error

真の値からのずれの大きさ。
標本調査では、全数調査をすれば得られたはずの真の値は分からないが、「真の値はおよそ1800円±50円の範囲にあるだろう」ということは推定できる。この場合、「誤差は50円以下だろう」ということになる。
「標本誤差」の項参照

五数要約 five-number summary

データのばらつきの様子をあらわすのに、

  • 最小値
  • 第1四分位数(小さいほうから1/4のところのデータ)
  • 第2四分位数(小さいほうから2/4のところのデータ、中央値と同じこと)
  • 第3四分位数(小さいほうから3/4のところのデータ)
  • 最大値

の5つの数を用いて表すこと。(⇒「四分位数」の項参照)

最頻値 mode

その値が起こる頻度が最も高い値のこと。モードともいう。
最頻値を求めるには、度数分布表を作成し、度数の最も多い値が最頻値となる。
下記の度数分布では、「1」が最頻値である。

世帯人員 1 2 3 4
世帯の数 14 13 9 8

連続的な変数の場合には、度数の最も多い階級の中央値を最頻値とする。
下記の度数分布では、「155cm」が最頻値である。

身長 150cm未満 150cm以上
160cm未満
160cm以上
170cm未満
170cm以上
度数 10 50 42 30

テキスト値をとるデータ(定性的な属性についてのデータ)の場合も、最頻値ということがある。
下記の度数分布では、野球部が最頻値である。

クラブ 野球部 サッカー部 水泳部 演劇部
部員の数(人) 20 15 10 8

散布図 scattering diagram

2つの量の関係をみるために、グラフの縦軸・横軸にそれぞれの変量をとり、該当するデータを点であらわしたもの。

四分位数 quartile points

データを小さい順に並べて、下から1/4のところのデータを第1四分位数、2/4のところのデータを第2四分位数(これは中央値と同じ)、3/4のところのデータを第3四分位数という。そして、第1四分位数、第2四分位数、第3四分位数をまとめて、四分位数という。

四分位範囲 quartile range

(第3四分位数−第1四分位数)の値のことを四分位範囲といい、中心付近のデータがどのくらい散らばっているかの目安として用いる。

四分位偏差 quartile deviation

(第3四分位数−第1四分位数)÷2の値のことで、四分位範囲の半分。四分位範囲と同じく、中心付近のデータがどのくらい散らばっているかの目安として用いる。

信頼区間 confidence interval

標本調査において、真の値がどの範囲にあるのかを表す方法であり、「真の値が存在する95%信頼区間は150cm±5cmである」と言った場合、真の値は95%の確からしさ(信頼度)で145cmから155cmの間にある、ということを意味している。

正規分布 normal distribution

確率密度関数が計算式で表される確率分布。これを、平均μ、分散σ2の正規分布といい、記号N(μ,σ2)で表す。単峰性で平均μを中心に左右対称な形状を示す。誤差の分布など自然界の多くの事象の分布モデルとして使用される。
同じ確率分布に従う確率変数X1,X2,・・・、Xnを独立に取り出したとき、もともとの確率分布がどのような形状でも、その平均値(計算式)は近似的に正規分布になるという定理(中心極限定理)は、推定誤差の評価を行う上で重要であり、正規分布は統計学では特に重要な意味を持つ。

全数調査 census

対象となるもの全てを調査することを全数調査という。一方、対象のうち一部(標本)だけを取り出して調査するものを抽出調査(あるいは標本調査)という。総務省統計局が5年ごとに実施している国勢調査は代表的な全数調査である。

相関 correlation

2つの変数の間で、一方が増えれば他方も増える(または減少する)という直線的な傾向がある場合、2つの変数の間に正の(負の)相関があるという。

相関係数 coefficient of correlation

相関の強さを表す指標で、-1から1の間の値をとる。2つの変量が正の相関関係にある場合、正の値をとり、負の相関関係にある場合、負の値をとる。いずれの場合も相関が強いほど1に近い大きな絶対値をとる。例えば、散布図を描いたときにデータが完全に一直線上に乗っており、その直線の傾きが正であるときは相関係数が1、負であるときは-1となる。相関関係がない場合は、0に近い値をとる。

増減数・増減率 increase(decrease), increase(decrease)rate

変化する量に対して、基準値からの増加や減少した量を増減数、それを基準の値で割って増減数が基準値のどの程度を占めるのかを比率でみたものを増減率という。
例えば、2000年の日本の人口は1億2692万6千人、2005年の人口は1億2776万8千人なので、

  • この期間の人口の増減数は、1億2776万8千−1億2692万6千=842千人
  • この期間の人口の増減率は、842千÷1億2692万6千×100=0.7%

となる。

相対度数 relative frequency

データがある値をとる頻度を度数というが、その度数を全体のデータ数で割って割合で表したものを相対度数という。相対度数はその値の起こりやすさを表している。

A B C D 合計
度数 10 16 8 6 40
相対度数 25% 40% 20% 15% 100%

中央値 median

データを値の小さいほうから順にならべたときにちょうど半分にデータを分ける値をいう。データの数が奇数の場合は、ちょうど中央にくるデータの値、データの数が偶数の場合は、前半の最大値と後半の最小値の真ん中の値をいう。
中位数ともいう。第2四分位数と同じになる。

統計地図 statistical map

統計データを地図上にあらわしたもの。
データの大小を、地図上で色の濃淡で表したり、グラフに表したりする。。

統計調査 statistical survey

統計を得るために、個人や団体から、調査票への記入や聞き取り等の方法により、データを収集することをいう。対象となるものすべてを調査するものを全数調査、対象のうち一部(標本)だけを取り出して調査するものを抽出調査(あるいは標本調査)という。

度数分布表 frequency distribution

データがどのように散らばっているかを示す表であり、値自身や値の階級に対して、その範囲にいくつデータがあるかの頻度(度数)を表したものをいう。

ドットプロット dot plot

度数分布表を視覚的に表したグラフで、横軸にデータ値やデータの階級を、縦軸に度数を配して点の数で度数を表したもの。度数が10であれば点を10個、縦に並べて表示する。

二項分布 binomial distribution

コインを複数回投げたときに、表が出る回数Xは確率変数となる。このときXが従う確率分布のことを二項分布B(n,p)といい、表が出る確率がpであるコインをn回投げてr=0,1,2,…,nに対してちょうどr回表が出る確率は、P(X=r)=nCrpr(1-p)n-rで表わされる。この確率のことを二項確率という。nが十分大きい場合、二項分布 B(n,p)は平均np、分散np(1-p)の正規分布に近似できる。

パーセント percent

全体に対する割合を、全体を100として表したもの。百分率。

箱ひげ図 box and whisker plot

データの散らばり具合を表す五数要約を図で表したものであり、以下のような形をしている。

箱ひげ図

中心の箱となる部分で分布中心傾向の範囲を、両端のひげの部分で分布の両端の様子を読み取る。このほかにも、外れ値を明示する箱ひげ図もある。

外れ値 outlier

一つの集団の中に存在する、全体の傾向とは異なって、離れた値を示すデータのことを外れ値という。ヒストグラムや散布図を描くことによって、外れ値を容易に検出することができる。

範囲 range

データの最小値と最大値の差のことを、データの範囲という。

ヒストグラム histogram

度数分布表を棒グラフで表したもので、データの散らばり具合をみるのに用いる。棒の一番高いところが最頻値である。ヒストグラムの高さは(度数ではなく)度数密度を表し、面積が度数を表すため、階級幅の異なる度数表をヒストグラムに表す場合は、高さの調節が必要となる。

非標本誤差 non-sampling error

標本誤差以外の誤差をいう。例えば統計調査では、回答者の誤回答や未回答などが主な非標本誤差の例である。標本誤差は数量的に評価できるが、非標本誤差の大きさを評価することは困難である。

標準偏差 standard deviation

データの散らばりの大きさを表す指標で、大きいほど、データが散らばっていることを表す。
分散の平方根に等しく、記号σ(シグマ)で表す。
X1,X2,・・・、Xnの標準偏差は、以下のように計算される。

計算式 ただし計算式

データが正規分布にしたがう場合、平均値±1×標準偏差内にデータの約68.3%、±2×標準偏差内に約95.4%、±3×標準偏差内に約99.7%のデータが含まれる(シグマの法則)。

標本、標本調査 sample, sample survey

統計調査を行う際に、対象のすべてを調べるのではなく、一部だけを取り出して調査するものを標本調査といい、取り出されたものを標本という。

標本誤差 sampling error

全数調査を行わずに標本調査を行ったことにより生ずる推定誤差を言う。通常、調査結果から「真の値(全数調査をすれば得られたはずの値)は○%の信頼度で1800円±50円の範囲にあるだろう」などと標本誤差をつけて評価する。そのためには、標本抽出が無作為抽出である必要がある。

分散 variance

データの散らばりの大きさを表す指標で、大きいほどデータが散らばっていることを表す。
記号Vで表す。標準偏差の2乗に等しい。
X1,X2,・・・、Xnの分散は、以下のように計算される。

計算式 ただし計算式

分布 distribution

「確率分布」と同じ意味で用いられる。

平均値 average

データの合計をデータの個数で割ったもので、「算術平均」ともいう。

ポイント(ポイント差) percent point

パーセントで表された数字同士の差を表す単位。

母集団 population, universe

統計調査を行うとき、研究の対象となる個体全体のことを母集団という。

無作為抽出 random sampling

標本調査を行うときの標本の選び方の一つで、選ぶ際の恣意性をなくし、全く確率的に母集団から選ぶ方法。
無作為抽出を行うことで、標本誤差の評価が可能になる。