kino's blog

ホームページ公開後の悪戦苦闘等々他2本

20150621 統計検定2級 問15[3]

次の表は、あるチェーン店の各店舗のデータを示したものである(表は省略します)。

このデータに対して、「売上高」を応答変数、ほかの変数を説明変数として、重回帰分析を行い、既存店における売上高を予測する式を求めることにした。統計ソフトウェアで分析したところ、次のような結果を得た(下記の図はSASで取得しています)。

REG プロシジャ

モデル : MODEL1

従属変数 : sales

読み込んだオブザベーション数 15
使用されたオブザベーション数 15
分散分析
要因自由度平方和平均平方F 値Pr > F
Model 5 60800 12160 73.76 <.0001
Error 9 1483.64790 164.84977    
Corrected Total 14 62284      
Root MSE 12.83938 R2 乗 0.9762
従属変数の平均 110.40000 調整済み R2 乗 0.9629
変動係数 11.62988    
パラメータ推定値
変数自由度パラメータ
推定値
標準誤差t 値Pr > |t|分散拡大
Intercept1 1.97049 32.22866 0.06 0.9526 0
pessers1 0.04927 0.01603 3.07 0.0133 8.89496
time1 -2.23524 0.86492 -2.58 0.0295 6.37019
area1 0.06360 0.40125 0.16 0.8776 8.81825
staff1 3.95895 2.66864 1.48 0.1721 4.61962
item1 0.47966 0.15941 3.01 0.0147 1.28793

 

[3]次の記述Ⅰ~Ⅲは重回帰分析の結果を解釈したものである。

Ⅰ:決定係数や自由度調整済み決定係数の値が1に近いので、これらの説明変数で「売上高」をかなり説明できていることがわかる。

Ⅱ:偏回帰係数の絶対値が一番大きいのは「従業員数」である。このことは、目的変数である「売上高」との相関係数が一番大きい説明変数は「従業員数」であることを意味している。

Ⅲ:有意でない変数がふくまれているので、5つの説明変数のうちいくつかを覗いて重回帰分析を再度行うと、決定係数が上昇する可能性がある。

 

①Ⅰのみ正しい。

②ⅠとⅡのみ正しい。

③ⅠとⅢのみ正しい。

④すべて正しい。

⑤すでて正しくない。

 

〇回答

〇内容

 Ⅰ:〇:正しい

 Ⅱ:X:通行者数が一番多い

 Ⅲ:X:上昇しない

〇詳細

Ⅰ:決定係数(寄与率ともいう)が1に近いという事は、あてはまってると言える(決定係数、あてはまりでググると詳しく出てくるかと)。正解。

Ⅱ:実際に計算してみる。下の相関係数図にて通行者数が多い。

では偏回帰係数って何?と。それは。

\begin{eqnarray}Y=a+b_1x_1+b_2x_2…b_nx_n \end{eqnarray}

\begin{eqnarray}の b_1,b_2,b_n にあたる。\end{eqnarray}

絶対値が大きいのはあっているが、相関係数が高いわけではない。

よってX。

 

Pearson の相関係数, N = 15
H0: Rho=0 に対する Prob > |r|
 pesserstimeareastaffitemsales
pessers
1.00000
 
-0.89512
<.0001
0.90099
<.0001
0.79054
0.0005
0.19636
0.4831
0.95786
<.0001
time
-0.89512
<.0001
1.00000
 
-0.82663
0.0001
-0.81011
0.0003
-0.04997
0.8596
-0.91930
<.0001
area
0.90099
<.0001
-0.82663
0.0001
1.00000
 
0.85888
<.0001
0.28900
0.2962
0.91808
<.0001
staff
0.79054
0.0005
-0.81011
0.0003
0.85888
<.0001
1.00000
 
0.11221
0.6905
0.84914
<.0001
item
0.19636
0.4831
-0.04997
0.8596
0.28900
0.2962
0.11221
0.6905
1.00000
 
0.31044
0.2601
sales
0.95786
<.0001
-0.91930
<.0001
0.91808
<.0001
0.84914
<.0001
0.31044
0.2601
1.00000
 

 

Ⅲ: 実際に、説明変数から通行者数、最寄駅からの時間、品目数をピックアップして、計算してみる。

問題文のR2乗が0.9762。実際に計算したのが、0.9496。

0.9762>0.9496

と上記のようになる。よってX。

と、言いたいところだけれど、実際にテスト中に計算してらんない。

そこで、この問題が出ることが今後恐らくないと思えるが、

決定係数は説明変数が増えると、増加するという性質がある。今回は、説明変数を減らしているから減少している。これを片隅に置いておけばいいと思う。

 

読み込んだオブザベーション数 15
使用されたオブザベーション数 15
分散分析
要因自由度平方和平均平方F 値Pr > F
Model 3 59142 19714 69.03 <.0001
Error 11 3141.35595 285.57781    
Corrected Total 14 62284      
Root MSE 16.89905 R2 乗 0.9496
従属変数の平均 110.40000 調整済み R2 乗 0.9358
変動係数 15.30711