2017年6月実施の統計検定2級 問3(3)について解説したいと思います。
日本の「訪日外客数」の折れ線グラフと「訪日外客数の前年同月比伸び率」の折れ線グラフから、訪日外客数のコレログラムとして最も適切なものを1つ選ぶという問題。
「コレログラムって何??」という感じでしたが、公式問題集の2015年11月実施分の問6でコレログラムについての問題が出題されています。しかし、頻出な分野では無さそうだし、公式教科書でも「自己相関」だの「自己共分散関数」だの小難しい説明がされていて、他に参考書として使用していた本には出てこないので、マイナーな問題と考えて理解しないままにしていました。しかし、まんまと出題されてしまったわけで、35問しかない試験で1問落とすのは結構な痛手なので、とても悔やまれます。
さて、コレログラムとはどういったものかというと、横軸にラグ(時間差)、縦軸に自己相関係数をとったグラフです。
例として、以下のような、とある商品の1年間12か月分の売り上げのデータがあると考えます。
月数 | 1月 | 2月 | 3月 | ・・・ | 11月 | 12月 |
売上 | 10000円 | 15000円 | 14000円 | ・・・ | 12000円 | 13000円 |
コレログラムを作成するために、売上のデータを1月分(時間差)ずつずらして相関を求めていきます。
まず、ラグ(時間差)0の場合について考えます。X軸に基準となる月数の売上、Y軸に0月ずつずらした月数の売上(L0)をプロットして相関係数を求めます。
基準となる月数 | 1月 | 2月 | 3月 | ・・・ | 11月 | 12月 |
基準の月数の売上(X軸) | 10000円 | 15000円 | 14000円 | ・・・ | 12000円 | 13000円 |
L0(Y軸) | 10000円(1月分) | 15000円(2月分) | 14000円(3月分) | ・・・ | 12000円(11月分) | 13000円(12月分) |
この場合、X軸の値=Y軸の値となる散布図なので、回帰直線は45°の一直線となります。つまり、相関係数は1となります。
続いて、ラグ(時間差)1の場合について考えます。X軸に基準となる月数の売上、Y軸に1月ずつずらした月数の売上(L1)をプロットして相関係数を求めます。
基準となる月数 | 1月 | 2月 | 3月 | ・・・ | 11月 |
基準の月数の売上(X軸) | 10000円 | 15000円 | 14000円 | ・・・ | 12000円 |
L1(1月分ずらした売り上げ)(Y軸) | 15000円(2月分) | 14000円(3月分) | ・・・ | 12000円(11月分) | 13000円(12月分) |
同様に時間差L2、L3・・という風に、データを時間差分ずらしたものと、基準のデータの相関係数を求めていきます。
そして時間差をX軸に、各時間差での相関係数をY軸にとってグラフとしたものがコレログラムとなります。
つまり、コレログラムはデータの周期性を確認するのに有効な方法です。例えば、4か月ごと全く同じ売り上げとなるという周期性があれば、時間差(X軸)が4の倍数となるときに相関係数(Y軸)が1となるコレログラムになります。3ヶ月毎に売り上げが減少するという周期性があれば、時間差Xが3の倍数のときに相関係数Yが負の値となるコレログラムとなります。
1週間で周期性のあるデータ、1年で周期性のあるデータなど、周期性のあるデータをコレログラムで表現すると周期性が理解しやすくなります。
今回の統計検定2017年6月実施分の問3(3)では、訪日外客数(アジア計)はおおまかにいって増加を続けており、また、12か月のデータの中で顕著な周期性は示していないことから、選択肢2は排除されます。選択肢2は1月ごとに増減を繰り返すデータを示しています。
また選択肢4は時間差が4の倍数で相関係数1となっていますが、これは4か月ごとに全く同じ値を示す周期性がある場合のコレログラムとなりますので、誤りです。
選択肢3については時間差0のとき以外は相関係数がとても小さい値となっていますが、折れ線グラフから訪日外客数は緩やかな増加傾向にあり、時間差が1、2などの場合に相関係数が0に近い値になるとは考えにくいので、選択肢3も除外できます。
よって、正解は選択肢1です。訪日外客数が緩やかに増加しているので、時間差が増加するにつれて、相関係数は小さくなっていくことがわかります。
コメントを残す