Q.
あるデータに極端に大きい外れ値が1つ混じった。代表値への影響として正しいものはどれか。
解説まとめ
正解はCです。平均値はすべての値を合計して計算するため、極端に大きい外れ値が混じると、その値に引っ張られて大きくなります。一方、中央値は順位の真ん中を見るだけなので、外れ値が1つ増えても順位はほとんど変わらず、影響を受けにくいです。だからこそ偏りのあるデータでは中央値が重視されます。
ポイント
ここで問うているのは「頑健性(外れ値への強さ)」の違いです。平均は全データを使う=外れ値も計算に入るため弱く、中央値は順位だけを使う=外れ値に強い、という対比を押さえます。平均と中央値が大きくずれていたら外れ値や偏りを疑うサインです。
ワンポイントアドバイス
データの代表値を出すときは、平均と中央値の両方を並べて見てみましょう。2つが近ければ素直な分布、大きくずれていれば外れ値や偏りが疑われます。年収・価格・滞在時間など一部に大きな値が出やすいデータでは、平均だけで語らない癖をつけてください。
解説詳細
なぜ平均は外れ値に弱いのか
平均値は合計を個数で割るため、合計の中に極端な値が入るとその分だけ全体が押し上げられます。たとえば多くの値が10前後でも、1つだけ1000が混じれば平均は大きく跳ね上がります。すべての値を使うことが、外れ値に弱い理由です。
なぜ中央値は外れ値に強いのか/他の選択肢がなぜ誤りか
中央値は並べたときの真ん中の順位を見るだけなので、外れ値が1つ加わっても真ん中の値そのものは大きく変わりません。よってAの「どちらも影響を受けない」、Bの「中央値が大きく動き平均は動かない」は平均と中央値の性質が逆で誤りです。Dの「必ず同じだけ動く」も、両者の頑健性が異なるため成り立たず誤りです。