統計力向上サイト

menu open

平均だけで大丈夫?

GALTON BAR

いいバーですね。ゴルトンって近代統計学の?

ああ、名前に惹かれてね。

ダーウィンの従兄で平均回帰という統計学的現象をはじめて記述した人ですね。

平さんの氏名は音読すると、ヘイキンだ。平均の話に興味あるのかな?

平均と言えば、ここに来る人の平均年収ってどれ位ですか?

その質問の心は、平均についての有名な話かな?

ビル・ゲイツがここに入ってきたら、急に平均年収は上がるけれど、お客が前より金持ちになるわけではない、という話だろ。

そう!お見通しですね。

平均値が集団の平均的な実態を表さないという典型的な例だね。

大くんは、「平均人」という概念を提示した人を知ってる?

平均人!

よく知らないけどすごい概念ですね。

アドルフ・ケトレーの平均人

アドルフ・ケトレーの肖像画

アドルフ・ケトレー(1796-1874)

ベルギーの数学者で天文学者でもあるケトレーは、社会学に統計学的方法を導入し、近代統計学の「父」とも呼ばれる統計学者。彼は、著書で社会で正規分布の中心に位置し、平均的測定値を示す「平均人」という概念を提示し、後の社会統計学に大きな影響を与えた。また、1835 年に開発したボディマス指数は、メタボの重要な指数として、「BMI」と呼ばれ、現在、世界中で使われている。

BMI= 体重÷身長の二乗 相関図

ケトレーは人の身長に対する理想的体重を調べ、実際の体重と比較する指数を開発したんだよ。いわゆるメタボ指数で肥満の判定基準なんだ。

平均とは、全部のデータを足して、データの数で割った値だ。ケトレーは身長などのデータをヒストグラムにすると、左右対象の釣り鐘型になることから中央の値に注目し、平均人という概念を生み出したんだ。

でも、年間所得のヒストグラムは少数の大金持ちがいるから右裾が長くなりますね。

その通りだ。では、左裾が長くなるデータは何かな?意外と難しいぞ?

えーと、そうか!高齢化とはいえ、長寿で百十歳代。でも、赤ちゃんも亡くなることがあるから、寿命のデータは左裾が長くなりますよね。

さすが!よく思いついたね。

左右対称でないと平均値は平均人でなくなりますね。

そう、その問題を解決するのが、中央値と最頻値だ。

他の数値より大きく外れた値の問題を解決する2つの特性値

●中央値 データを小さい順に並べて、ちょうど真ん中の値。 大金持ちや乳児がいてもいなくても数値は変わらない。

●最頻値 測定値の中で最も多く現れた値。 大金持ちや乳児がいても、多数ではないので、数値は変わらない。

確かに、外れ値の影響はないですね。

まず、データの分布をヒストグラムにして形を確認することだね。

データの分布の中心を捉える3つの特性値の関係

平均= 中央値= 最頻値

最頻値< 中央値< 平均

平均< 中央値< 最頻値

でも、2つの山になる形状でも平均はありますよね。

そう、2つの山の平均での話だが、

講演を依頼された人が、聴衆の平均年齢をたずねたら、考えて35 歳くらいだという。そこで30 代に受けそうな話を準備したら、会場には大学生と50 代の会社員が半々で、どちらにも受けなかったそうだよ。

平均値は欠点があるのに、どうして、広範に使われるのかな?

相対的な比較に便利だからさ。

例えば、業界の平均給与とかおおまかに比較できるだろ。

なるほど。簡単で便利だからか。

もう1つは総量を平均値から推測すること。

平均値を利用する究極の機能だよ。

平均値の利用で総量を推測?

例えば、ある商品の一世帯当りの平均購入額があれば、全国の世帯数をかけて、市場規模が推定できるってことか。

納得したらしいから、これでひきあげるか!

はい、ありがとうございました。また、誘ってくださいね。

facebook Tweet Google+