20150621 統計検定2級 問15[3]
次の表は、あるチェーン店の各店舗のデータを示したものである(表は省略します)。
このデータに対して、「売上高」を応答変数、ほかの変数を説明変数として、重回帰分析を行い、既存店における売上高を予測する式を求めることにした。統計ソフトウェアで分析したところ、次のような結果を得た(下記の図はSASで取得しています)。
読み込んだオブザベーション数 | 15 |
---|---|
使用されたオブザベーション数 | 15 |
分散分析 | |||||
---|---|---|---|---|---|
要因 | 自由度 | 平方和 | 平均平方 | F 値 | Pr > F |
Model | 5 | 60800 | 12160 | 73.76 | <.0001 |
Error | 9 | 1483.64790 | 164.84977 | ||
Corrected Total | 14 | 62284 |
Root MSE | 12.83938 | R2 乗 | 0.9762 |
---|---|---|---|
従属変数の平均 | 110.40000 | 調整済み R2 乗 | 0.9629 |
変動係数 | 11.62988 |
パラメータ推定値 | ||||||
---|---|---|---|---|---|---|
変数 | 自由度 | パラメータ 推定値 | 標準誤差 | t 値 | Pr > |t| | 分散拡大 |
Intercept | 1 | 1.97049 | 32.22866 | 0.06 | 0.9526 | 0 |
pessers | 1 | 0.04927 | 0.01603 | 3.07 | 0.0133 | 8.89496 |
time | 1 | -2.23524 | 0.86492 | -2.58 | 0.0295 | 6.37019 |
area | 1 | 0.06360 | 0.40125 | 0.16 | 0.8776 | 8.81825 |
staff | 1 | 3.95895 | 2.66864 | 1.48 | 0.1721 | 4.61962 |
item | 1 | 0.47966 | 0.15941 | 3.01 | 0.0147 | 1.28793 |
[3]次の記述Ⅰ~Ⅲは重回帰分析の結果を解釈したものである。
Ⅰ:決定係数や自由度調整済み決定係数の値が1に近いので、これらの説明変数で「売上高」をかなり説明できていることがわかる。
Ⅱ:偏回帰係数の絶対値が一番大きいのは「従業員数」である。このことは、目的変数である「売上高」との相関係数が一番大きい説明変数は「従業員数」であることを意味している。
Ⅲ:有意でない変数がふくまれているので、5つの説明変数のうちいくつかを覗いて重回帰分析を再度行うと、決定係数が上昇する可能性がある。
①Ⅰのみ正しい。
②ⅠとⅡのみ正しい。
③ⅠとⅢのみ正しい。
④すべて正しい。
⑤すでて正しくない。
〇回答:①
〇内容
Ⅰ:〇:正しい
Ⅱ:X:通行者数が一番多い
Ⅲ:X:上昇しない
〇詳細
Ⅰ:決定係数(寄与率ともいう)が1に近いという事は、あてはまってると言える(決定係数、あてはまりでググると詳しく出てくるかと)。正解。
Ⅱ:実際に計算してみる。下の相関係数図にて通行者数が多い。
では偏回帰係数って何?と。それは。
\begin{eqnarray}Y=a+b_1x_1+b_2x_2…b_nx_n \end{eqnarray}
\begin{eqnarray}の b_1,b_2,b_n にあたる。\end{eqnarray}
絶対値が大きいのはあっているが、相関係数が高いわけではない。
よってX。
Pearson の相関係数, N = 15 H0: Rho=0 に対する Prob > |r| | ||||||
---|---|---|---|---|---|---|
pessers | time | area | staff | item | sales | |
pessers |
1.00000
|
-0.89512
<.0001
|
0.90099
<.0001
|
0.79054
0.0005
|
0.19636
0.4831
|
0.95786
<.0001
|
time |
-0.89512
<.0001
|
1.00000
|
-0.82663
0.0001
|
-0.81011
0.0003
|
-0.04997
0.8596
|
-0.91930
<.0001
|
area |
0.90099
<.0001
|
-0.82663
0.0001
|
1.00000
|
0.85888
<.0001
|
0.28900
0.2962
|
0.91808
<.0001
|
staff |
0.79054
0.0005
|
-0.81011
0.0003
|
0.85888
<.0001
|
1.00000
|
0.11221
0.6905
|
0.84914
<.0001
|
item |
0.19636
0.4831
|
-0.04997
0.8596
|
0.28900
0.2962
|
0.11221
0.6905
|
1.00000
|
0.31044
0.2601
|
sales |
0.95786
<.0001
|
-0.91930
<.0001
|
0.91808
<.0001
|
0.84914
<.0001
|
0.31044
0.2601
|
1.00000
|
Ⅲ: 実際に、説明変数から通行者数、最寄駅からの時間、品目数をピックアップして、計算してみる。
問題文のR2乗が0.9762。実際に計算したのが、0.9496。
0.9762>0.9496
と上記のようになる。よってX。
と、言いたいところだけれど、実際にテスト中に計算してらんない。
そこで、この問題が出ることが今後恐らくないと思えるが、
決定係数は説明変数が増えると、増加するという性質がある。今回は、説明変数を減らしているから減少している。これを片隅に置いておけばいいと思う。
読み込んだオブザベーション数 | 15 |
---|---|
使用されたオブザベーション数 | 15 |
分散分析 | |||||
---|---|---|---|---|---|
要因 | 自由度 | 平方和 | 平均平方 | F 値 | Pr > F |
Model | 3 | 59142 | 19714 | 69.03 | <.0001 |
Error | 11 | 3141.35595 | 285.57781 | ||
Corrected Total | 14 | 62284 |
Root MSE | 16.89905 | R2 乗 | 0.9496 |
---|---|---|---|
従属変数の平均 | 110.40000 | 調整済み R2 乗 | 0.9358 |
変動係数 | 15.30711 |