失業率と平均時給が「同時に上昇」──コロナ不況の米労働市場で何が起きていたのか
所得の平均値が最頻値より高いのは、所得が高めの人たちが平均値を引き上げているためです。所得水準が非常に高い人も一定数いるので、右に裾が長い分布となります。もし分布の形が左右対称なら、平均値は分布のちょうど真ん中に来るので、典型的な労働者の姿を表していると言うことができるでしょう。しかし、実際は分布が左右非対称であり、労働者の61.1%が平均所得以下となっています。つまり、平均値が典型的な労働者の所得水準を表しているとは必ずしも言えないのです。
所得分布のように左右非対称な分布について考えるときは、データの水準感を表すために、平均値以外の数値を参考にすることがあります。1つは先ほど出てきた最頻値で、もう1つは中央値です。中央値とは、データを小さい順に並べたとき、ちょうど真ん中に来る値のことです。例えば、表5-9だと、時給が低い順にAさん、Bさん、Cさん、Dさん、Eさんと並んでいます。このとき、Cさんは上から数えても3番目、下から数えても3番目なので、ちょうど真ん中にいますね。つまり、Cさんの時給1000円が中央値に相当します。サンプルサイズが大きくなった場合も同様で、例えば1001人いれば501番目の人の時給が中央値です。ちなみに、データが偶数個のときはちょうど真ん中の値というものがないので、前後の平均を使います。例えば、データが4個の場合は2番目と3番目のデータの平均を中央値とします。
中央値の良いところは、極端なデータが混ざっていても、その影響を受けにくいところです。例えば、表5-9の場合、平均値は時給が飛び抜けて高いEさんのデータに引っ張られて2740円になりますが、中央値は1000円(Cさんの時給)です。このようなケースでは、Eさんは別格として、その他のA~Dさんが平均的な水準と考えた方が妥当そうですね。中央値は、そういった実感に近い結果を返してくれます。データの中に混ざった極端な数値のことを外れ値(はずれち)と呼びますが、Eさんのデータは外れ値と考えて良さそうですね。中央値は、外れ値の影響を受けにくいという利点があります。
平均値が最もよく使われる指標ではありますが、状況に応じて中央値や最頻値なども見ながらバランスの良い判断に役立てていきます。
このように、統計学を使えばデータからいろいろな知見を引き出すことができます。その基本となる考え方は「グラフ化」です。データの分布を視覚化することで特徴をとらえ、必要に応じて平均値、中央値、最頻値などの統計量を算出してみることでデータへの理解を深めていくことができます。
[著者]冨島佑允
京都大学理学部卒業、東京大学大学院理学系研究科修了(素粒子物理学専攻)。修士(理学)、MBA in Finance(一橋大学)、CFA協会認定証券アナリスト。大学院在籍時は欧州原子核研究機構(CERN)で研究員として世界最大の素粒子実験プロジェクトに従事。修了後はメガバンクでクオンツ(金融に関する数理分析の専門職)として信用デリバティブや日本国債・日本株の運用を担当、ニューヨークのヘッジファンドを経て、2016年より保険会社の運用部門。著書に『「大数の法則」がわかれば、世の中のすべてがわかる! 』(ウェッジ)、『この世界は誰が創造したのか シミュレーション仮説入門』(河出書房新社)、『投資と金融がわかりたい人のためのファイナンス理論入門 プライシング・ポートフォリオ・リスク管理』(CCCメディアハウス)、『日常にひそむ うつくしい数学』(朝日新聞出版)がある。
『数学独習法』
冨島佑允 著
講談社現代新書
(※画像をクリックするとアマゾンに飛びます)
2025年1月21日号(1月15日発売)は「トランプ新政権ガイド」特集。1月20日の就任式を目前に「爆弾」を連続投下。トランプ新政権の外交・内政と日本経済への影響を読む
※バックナンバーが読み放題となる定期購読はこちら