調整(トリム)平均
データの中心傾向を把握するためには、平均値が使われます。しかし、極端な値や外れ値が含まれる場合、平均値はそのデータの代表値としての精度を歪めてしまいます。
この記事で学習できること
- 調整平均(トリム平均)
できる限り、外れ値に影響されない平均値を出すことはできないだろうか? この記事では、それを可能にする調整平均(トリム平均)について学習していきましょう。
ワンちゃんの毛をカットすることもトリミングって言いますよね。カットした平均値のことをトリム平均っていいます
第11講座
少し話が変わりますが、講師である私はもともと競泳選手でした。
100m自由形のベストタイムは、53秒3(短水路)で現役生活を終えました。52秒まで行きたかったですね。
日本選手権をはじめ、各全国大会、ジュニア大会などでは、公式レースでの突破タイムによって出場ができるかどうかの標準記録があります。
例えば、100mの標準記録「50秒0」を基準としてみましょう。
このタイムはどのようにして決められているのでしょうか? あくまでタイム設定はブラックボックスなので、日本水泳連盟しか知りえないことですが、こうじゃないかなという推定ができます。
例えば、48秒~52秒まで泳げる選手が30人ぐらいいるとします。もし、いきなり46秒泳げるすごい選手が6人登場したとしましょう。
平均値で参加標準記録を作成していた場合、46秒をたたき出した選手の実績によって、標準記録が一気に上がってしまう恐れがあります。
そうなれば、その6人が引退したあと、誰も大会に出場できなくなる恐れがある、ということが起こりえます。これを解決するのが、調整(トリム)平均です。
そうならないためにも、上位の記録保持者のデータは含めずに平均値を取って、参加標準記録を決めたほうが安定します。
ただし、上位だけのデータを取り除くと、下位のデータが強調されてしまうためバランスが悪くなってしまいます。
そのため、取り除いた上位分、下位データも取り除く必要があるわけです。
このように、上位・下位●個のデータ、または上位・下位●%のデータを取り除いて平均を出すというデータの調理方法があります。
これを調整平均またはトリム平均と言います。この方法により、外れ値の影響を緩和することで、データの中心を効果的に焦点を当てることが可能になります。
調整(トリム)平均が適用されるシーン
調整(トリム)平均は、外れ値によって通常の平均値が歪められる可能性がある、さまざまなシナリオで有効です。
前述ではスポーツを例にしましたが、ほかにも以下のような場面で使用されます
- 給与データの分析
- 高額な給与をもらっている少数の人々が、平均値を大きく上げてしまう可能性があるため、トリム平均を使用してより代表的な給与水準を把握します。
- 高額な給与をもらっている少数の人々が、平均値を大きく上げてしまう可能性があるため、トリム平均を使用してより代表的な給与水準を把握します。
- 品質管理
- 製品の品質評価で、極端に悪い製品や良い製品のデータを排除してから平均を取ることで、製造プロセスの一般的な品質をより正確に評価できます。
こういうのが、調整(トリム)平均が必要となる一例ですね。
Excelの操作の場合
ExcelではTRIMMEAN(トリム・ミーン)関数を使うことで、上下20%カットの平均値を求めることが可能です。
このようにデータが20件あり、20%の場合は4件のデータを除外します。この4件は上位2件、下位2件という意味です。
まとめ
調整(トリム)平均の最大の利点は、外れ値の影響を回避することにあります。
これにより、データの中心傾向をより正確に反映することができるわけです。しかし、データの一部を無視するため、除外されるデータの選択には注意が必要です。
また、どのデータを除外するかによって結果が大きく変わる可能性があるため、分析の目的に応じて適切な調整(トリム)率を選択することが重要です。
データの特性によって5%から20%の範囲で調整することが一般的です。この範囲を覚えておいてね