20150621 統計検定2級 問15[4]
次の表は、あるチェーン店の各店舗のデータを示したものである(表は省略します)。
このデータに対して、「売上高」を応答変数、ほかの変数を説明変数として、重回帰分析を行い、既存店における売上高を予測する式を求めることにした。統計ソフトウェアで分析したところ、次のような結果を得た(下記の図はSASで取得しています)。
読み込んだオブザベーション数 | 15 |
---|---|
使用されたオブザベーション数 | 15 |
分散分析 | |||||
---|---|---|---|---|---|
要因 | 自由度 | 平方和 | 平均平方 | F 値 | Pr > F |
Model | 5 | 60800 | 12160 | 73.76 | <.0001 |
Error | 9 | 1483.64790 | 164.84977 | ||
Corrected Total | 14 | 62284 |
Root MSE | 12.83938 | R2 乗 | 0.9762 |
---|---|---|---|
従属変数の平均 | 110.40000 | 調整済み R2 乗 | 0.9629 |
変動係数 | 11.62988 |
パラメータ推定値 | ||||||
---|---|---|---|---|---|---|
変数 | 自由度 | パラメータ 推定値 | 標準誤差 | t 値 | Pr > |t| | 分散拡大 |
Intercept | 1 | 1.97049 | 32.22866 | 0.06 | 0.9526 | 0 |
pessers | 1 | 0.04927 | 0.01603 | 3.07 | 0.0133 | 8.89496 |
time | 1 | -2.23524 | 0.86492 | -2.58 | 0.0295 | 6.37019 |
area | 1 | 0.06360 | 0.40125 | 0.16 | 0.8776 | 8.81825 |
staff | 1 | 3.95895 | 2.66864 | 1.48 | 0.1721 | 4.61962 |
item | 1 | 0.47966 | 0.15941 | 3.01 | 0.0147 | 1.28793 |
[4]この重回帰式を用いて、次の3店舗の売上高を予測する。
②「通行者数」「最寄駅からの時間」「品目数」のみ①「通行者数」「店舗面積」「従業員数」「品目数」のみ
A
|
B
|
C
|
D
|
E
|
F
|
|
1 |
店舗
|
通行者数
|
最寄駅からの時間
|
店舗面積
|
従業員数
|
品目数
|
2 |
A
|
1500
|
5
|
50
|
10
|
100
|
3 |
B
|
700
|
20
|
50
|
10
|
100
|
4 |
C
|
1200
|
4
|
50
|
10
|
このとき、各店舗の予測売上高を高い順に示しているものはどれか?
①A>B>C
②A>C>B
③B>C>A
④C>A>B
⑤C>B>A
〇回答:②
〇内容
問15[3]でも少し出てきたけれど」重回帰式を使う。
\begin{eqnarray}Y=a+b_1x_1+b_2x_2…b_nx_n \end{eqnarray}
Y=答え
a=intercept(切片)
b=パラメータ
x=変数
155.085=1.970+0.049+1500-2.235×5+0.064×50+3.959×10+0.48×100
82.36=1.970+0.049+700-2.235×20+0.064×50+3.959×10+0.48×100
142.62=1.970+1.970+0.049+1200-2.235×4×50+3.959×10+0.48×100
∴155.085>142.62>82.36となり、A>C>B。つまり、②が正解となる。
20150621 統計検定2級8問目[2]
100円玉5枚、10円玉7枚、1円玉3枚の入った小銭入れから、同時にに3枚の硬貨を取り出す。いずれかの硬貨を取り出すのも同様に確からしいとする。
[2]取り出した3枚の金額の合計が150円である確率は幾らか?次の①~⑤から選べ。
①1/3 ②1/25 ③15/91 ④22/91 ⑤20/273
〇回答:④
※回答の右を反転してください。
〇内容
5C3 + 5C2 x 7C1 + 5C2 x 3C1 ÷ 15C3 = 0.2417582
22/91=0.2417582…となる。
〇詳細
8問目[1]の応用。
3枚取り出すのは変わらないので
〇全体
15C3
〇部分
150円以上である確率。
この時点で100円は2枚以上となる。
・100円3枚取り出す場合。->5C3
・100円2枚取り出す場合。->5C2
・10円1枚取り出す場合。 ->7C1
・1円1枚取り出す場合。 ->3C1
最終的に部分÷全体にて答えとなる。
Rだと。
> a<-choose(15,3)
> b<-choose(5,2)
> c<-choose(7,1)
> d<-choose(3,1)
> e<-choose(5,3)
> e+b*c+b*d
[1] 110
> f<-e+b*c+b*d
> f/a
[1] 0.2417582
20150621 統計検定2級8問目[1]
100円玉5枚、10円玉7枚、1円玉3枚の入った小銭入れから、同時にに3枚の硬貨を取り出す。いずれかの硬貨を取り出すのも同様に確からしいとする。
[1]取り出した3枚の金額の合計が111円である確率は幾らか?次の①~⑤から選べ。
①1/3 ②1/26 ③1/105 ④1/5 ⑤3/13
〇回答:⑤
※回答の右を反転してください。
〇内容
5x7x3/15C3=3/13
〇詳細
5x7x3/15C3
これは正確には
5C1 x 7C1 x 3C1 ÷ 15C3
5C1とかどういう意味かというと下記。
〇部分
5枚のうち1枚を取り出す確率 → 5C1
因みに5C1→5!/(5-1)!1!
Cは組み合わせですよって記号。
此処で組み合わせを使うのは5枚中1枚取り出すけれど、
順番どうでもいいしってな感じだから。
あ、!これは階乗っていって
5!=5x4x3x2x1
なので
5C1は詳細に書くと。
5x4x3x2x1÷4x3x2x1x1=5
7枚のうち1枚を取り出す確率 → 7C1
3枚のうち1枚を取り出す確率 → 3C1
〇全体
15枚のうち3枚を取り出す確率 → 15C3
5C1 x 7C1 X 3C1 ÷ 15C3 = 0.2307692
およそ、100回やったら23回はあるんじゃね?って事。
Rだとこんな感じ。
> a<-choose(15,3)
> b<-choose(5,1)
> c<-choose(7,1)
> d<-choose(3,1)
> e<-b*c*d
> e/a
[1] 0.2307692
> e
[1] 105
> a
[1] 455
なので回答は3/13=0.2307692。
20150621 統計検定2級 問2
国際通貨基金(IMF)によると、南米のベネズエラでは、2010年の物価は2009年と比べて1.282倍、すなわち2010年の1年あたり物価上昇率は28.2%であった。同様に、2011年~2013年の1年当たり物価上昇率がそれぞれ26.1%、21.1%、40.6%であった。2010年~2013年の4年間の平均物価上昇率は何%か、次の①~⑤のうちからもっとも適切なものを1つ選べ。
①28.2% ②28.8% ③29.0% ④29.2% ⑤29.4%
〇回答:②
※回答の右を反転してください。
〇内容
4√28.2 x 26.1 x 21.1 x 40.6 ≒1.2881
〇詳細
数学がややこしいのは同じ意味なのに、言葉が色々あること。
今回使う式は相乗平均、もしくは幾何平均。意味は同じ。
n√X1 x X2 x X3 x X4
式は今回のケースで言うと上記。
数値が4つあるからX1-4まで。nは4が入る。因みに下の式も同じ意味。
n√nΠi=1 Xi
とりあえず、上記式より
4√28.2 x 26.1 x 21.1 x 40.6 ≒1.2881
因みに下記はSASで算出した結果。
〇code。
/*サンプルデータ作成*/
DATA test;
INPUT value;
CARDS;
1.282
1.261
1.211
1.406
RUN;
/*SAS9.2以降でのみ可能なプロシージャ*/
PROC TTEST DATA = test DIST=lognormal;
VAR value;
RUN;
DATA _null_;
SET _out; /*幾何平均出力*/
geomean = EXP(mean); /*幾何平均*/
PUT geomean;
RUN;
TTEST プロシジャ
変数 : value
N | 幾何平均 | 変動係数 | 最小値 | 最大値 |
---|---|---|---|---|
4 | 1.2881 | 0.0632 | 1.2110 | 1.4060 |
幾何平均 | 平均の 95% 信頼限界 | 変動係数 | 変動係数の 95% 信頼限界 | ||
---|---|---|---|---|---|
1.2881 | 1.1650 | 1.4242 | 0.0632 | 0.0358 | 0.2387 |
自由度 | t 値 | Pr > |t| |
---|---|---|
3 | 8.02 | 0.0040 |
20150621 統計検定2級 問1[2]
次の箱ひげ図は、都道府県別のうどん(ゆでめん)の10万人辺りの生産量(トン)について、西日本(近畿以西の24府県)及び東日本(23都道府県)に分けて示したものである。なお2番目の図は、1番目の図を見やすくするために、横軸の値を0-800トンにして表示したものである。これらの箱ひげ図では、”「第3四分位数」+「四分位範囲」×1.5”以下の値を取るデータの最大値までひげを引き、それより大きな値を外れ値として示している(箱ひげ図は省略)。
[2]この箱ひげ図からよみとれることとして不適切なものを、次の①~⑤のうちから1つ選べ。
①600トン以上の都道府県の数は東日本と西日本で同数である
②100トン以下の都道府県の数は西日本の方が多い
③範囲は西日本の方が大きい
④第1四分位数は東日本の方が大きい
⑤西日本の府県の中に平均を100トン以上押し上げる外れ値があるので、平均は西日本の方が大きいと推察できる。
〇回答:②
※回答の右を反転してください。
〇内容
これも箱ひげ図を見て。
①600トン以上の都道府県の数は東日本と西日本で同数である
→2番目の図で東日本が600トン以上が一つで、1番目の図にも西日本4000トン近くの一つ。なので、同数。
②100トン以下の都道府県の数は西日本の方が多い。
→2番目の図の東西中央値を見ると、東が100を切っている。よって東日本が多いと言える。
③範囲は西日本の方が大きい
→範囲=最大値ー最小値。いわずもがな、西日本です。
④第1四分位数は東日本の方が大きい
→箱の左辺がそう。東日本が高い。
⑤西日本の府県の中に平均を100トン以上押し上げる外れ値があるので、平均は西日本の方が大きいと推察できる。
→西日本の総数は24なので4000と仮定して4000/24=166.66
100<166.66
〇詳細
①600トン以上の都道府県の数は東日本と西日本で同数である
香 川 | 995779 | 9.95779 | 38,600 | 3876.362 |
群 馬 | 2008170 | 20.0817 | 12,645 | 629.6778 |
奈 良 | 1399978 | 13.99978 | 5,733 | 409.5064 |
西の香川と東の群馬のみなので同数。
②100トン以下の都道府県の数は西日本の方が多い
岡 山 | 1944986 | 19.44986 | 1,934 | 99.43516 | 西 |
青 森 | 1373164 | 13.73164 | 1,349 | 98.24027 | 東 |
茨 城 | 2968865 | 29.68865 | 2,657 | 89.49548 | 東 |
栃 木 | 2007014 | 20.07014 | 1,724 | 85.89875 | 東 |
広 島 | 2860769 | 28.60769 | 2,284 | 79.83867 | 西 |
長 野 | 2152736 | 21.52736 | 1,706 | 79.24799 | 東 |
秋 田 | 1085878 | 10.85878 | 813 | 74.87029 | 東 |
島 根 | 716354 | 7.16354 | 486 | 67.84355 | 西 |
石 川 | 1170040 | 11.7004 | 737 | 62.9893 | 東 |
山 形 | 1168789 | 11.68789 | 701 | 59.97661 | 東 |
神奈川 | 9049500 | 90.495 | 4,625 | 51.1078 | 東 |
東 京 | 13161751 | 131.6175 | 6,527 | 49.59067 | 東 |
千 葉 | 6217119 | 62.17119 | 2,810 | 45.19778 | 東 |
佐 賀 | 849709 | 8.49709 | 383 | 45.07425 | 西 |
高 知 | 764596 | 7.64596 | 334 | 43.6832 | 西 |
大 阪 | 8862896 | 88.62896 | 3,690 | 41.63425 | 西 |
大 分 | 1196409 | 11.96409 | 455 | 38.03047 | 西 |
長 崎 | 1426594 | 14.26594 | 421 | 29.51085 | 西 |
山 梨 | 862772 | 8.62772 | 221 | 25.61511 | 東 |
新 潟 | 2374922 | 23.74922 | 512 | 21.5586 | 東 |
福 井 | 806470 | 8.0647 | 158 | 19.59155 | 東 |
沖 縄 | 1392503 | 13.92503 | 240 | 17.23515 | 西 |
鳥 取 | 588418 | 5.88418 | 100 | 16.99472 | 西 |
宮 崎 | 1135120 | 11.3512 | 189 | 16.65022 | 西 |
鹿児島 | 1706428 | 17.06428 | 179 | 10.48975 | 西 |
上記表から 東13 西11で東が多い。
なので、この時点で答えは2
③範囲は西日本の方が大きい
y$area: east
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.59 55.54 89.50 133.60 152.90 629.70
---------------------------------------------------------------------------------------
y$area: west
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.49 40.73 105.70 268.80 153.30 3876.00
上記から3stQu-1stQu=範囲
東:152.9-55.54=97.36
西:153.3-40.73=112.57
④第1四分位数は東日本の方が大きい
東:55.54
西:40.73
⑤西日本の府県の中に平均を100トン以上押し上げる外れ値があるので、平均は西日本の方が大きいと推察できる。
y$area: east
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.59 55.54 89.50 133.60 152.90 629.70
---------------------------------------------------------------------------------------
y$area: west
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.49 40.73 105.70 268.80 153.30 3876.00
平均はmeanなので
東:133.6
西:268.8
20150621 統計検定2級 問1[1]
次の箱ひげ図は、都道府県別のうどん(ゆでめん)の10万人辺りの生産量(トン)について、西日本(近畿以西の24府県)及び東日本(23都道府県)に分けて示したものである。なお2番目の図は、1番目の図を見やすくするために、横軸の値を0-800トンにして表示したものである。これらの箱ひげ図では、”「第3四分位数」+「四分位範囲」×1.5”以下の値を取るデータの最大値までひげを引き、それより大きな値を外れ値として示している(箱ひげ図は省略)。
資料:農林水産省「平成21年米麦加工食品生産動態等統計調査」および総務省統計局「平成22年国勢調査結果」
次の記述Ⅰ-Ⅲはこの箱ひげ図に関することである。
Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある
Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある
Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある
記述Ⅰ~Ⅲに関して、次の①~⑤のうちからもっとも適切なものを1つ選べ。
①Ⅰのみ正しい。
②Ⅱのみ正しい。
③ⅠとⅡのみ正しい。
④ⅠとⅢのみ正しい。
⑤すべて正しい。
〇正解:⑤
※正解の右を反転してください。
〇内容
箱ひげ図の内容を見て回答するだけ。
Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある
→2番目の図の最小値、西日本が低い。
Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある
→1番目の図で飛びぬけ入ている外れ値有。
Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある
→1番目の図で見れば3番目の外れ値は西日本にある。
〇詳細
これには参考となる図があり、
上記2つのリンク先にある。
表があるってんなら本当にこの箱ひげ図になるのかよって所で、上記表から
1:総務省統計局「平成22年国勢調査結果」から人口を抜き出す。(A)
2:農林水産省「平成21年米麦加工食品生産動態等統計調査」から
ゆでめんを抜き出す。(C)
3:10万人当たりの生産量よりA/100000=B(B)
4:Cのゆでめんを結果Bで割ると今回の箱ひげ図で使われている数値が出てくる。(D)
都道府県 | A | B | C | D |
人口 | 単位(10万) | ゆでめん | C/B | |
北海道 | 5507456 | 55.07456 | 7,388 | 134.1454 |
青 森 | 1373164 | 13.73164 | 1,349 | 98.24027 |
岩 手 | 1330530 | 13.3053 | 1,659 | 124.6872 |
宮 城 | 2347975 | 23.47975 | 4,567 | 194.508 |
… | … | … | … | … |
沖 縄 | 1392503 | 13.92503 | 240 | 17.23515 |
合 計 | 128056026 | 1280.56 | 187,936 | 146.7608 |
表①
表①を並び替えて表示して答えと重ね合わせる。
Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある。
鹿児島が最も少ないみたい。
鹿児島 | 1706428 | 17.06428 | 179 | 10.48975 |
Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある。
まぁ、誰もがあって思う所。香川の雨は出汁が降るそうだ。
香 川 | 995779 | 9.95779 | 38,600 | 3876.362 |
Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある。
奈良。大仏だけじゃなかったのか…。
香 川 | 995779 | 9.95779 | 38,600 | 3876.362 |
群 馬 | 2008170 | 20.0817 | 12,645 | 629.6778 |
奈 良 | 1399978 | 13.99978 | 5,733 | 409.5064 |
1位が香川なので3位が奈良となる。
上記から全部〇。
じゃあ、実際に問いに出ているような箱ひげ図になるのかやってみる。
上記の表①を地域から西日本と東日本にわける。
【eastとwest】
こんな感じに加工。
value | area |
134.1454203 | east |
98.24026846 | east |
124.6871547 | east |
… | … |
10.48974818 | west |
17.23515138 | west |
加工した範囲をコピー。
で、Rを起動してごにょごにょとすると、
表②
表③
問題文に出ている表と同じ感じになる。
ごにょごにょは下記。
1:R起動。
2:y <- read.table("clipboard",header=TRUE)
/*クリップボード(コピーしたもの)をyに入れ込む
header=trueは最初の行はタイトルみたいな感じ*/
3:y
/*上記を入力すれば下記の表示がされる。
ちゃんとコピーされているかどうかわかる*/
value area
1 134.14542 east
2 98.24027 east
3 124.68715 east
4 194.50803 east
…
46 10.48975 west
47 17.23515 west
4: str(y)
'data.frame': 47 obs. of 2 variables:
$ value: num 134.1 98.2 124.7 194.5 74.9 ...
$ area : Factor w/ 2 levels "east","west": 1 1 1 1 1 1 1 1 1 1 ...
/*yの内容を情報付きで表示してくれる*/
5:y$area <- factor(y$area)
/*関数factorにてグループ化する、eastとwestに分ける*/
6: by(y$value,y$area,summary)
/*summaryを付けることで各列の5数要約、平均をピックアップ*/
y$area: east
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.59 55.54 89.50 133.60 152.90 629.70
---------------------------------------------------------------------------------------
y$area: west
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.49 40.73 105.70 268.80 153.30 3876.00
7: boxplot(y$value~y$area)
/*上記②の表を表示*/
表③は800以上を削除。つまりうどん県を削除して再度1-7を行う。
こんな感じかな。
ベイマックス感想参戦!
「最近、映画マナーが悪い人が増えています」
ふーん…って思いながら、ベイマックス見てきましたー。
「恐怖を覚える」「日本のクリエイティブは死んだ…」「人工知能」
等ブログで色々言われているからボクも昨日見てきたんだけれどね。
「恐怖を覚える」
ボクは「恐怖を覚える」って言うと、
あれを思い出すんだけれど。
話がずれました。
「日本のクリエイティブは死んだ」
日本のアニメは2位、5位、6位と入っているのだけれど…。
「人工知能」
ジョンラセターさんていう人が制作総指揮なんだけれど、
「コンピュータを使って人が特別なアニメーションを作る」
と言っているんだけれどなー。
「NHK 魔法の映画はこうして生まれる」で検索すると出てきます。
ただ、ブログを読むと普段映画を見てないとか、アニメは好きじゃないとか
そういう人の足を運ばせるってのは、ディズニーマジックすげーなって思いました。
感想?
隣のDQNカップルが袋のスナック菓子を持ち込んでいてうるさかった。
更にエンドロール中に抜け出して、その席はゴミだらけ。
将来映画が3D化するなら、ベイマックスのロケットパンチが
3Dプリンタを利用して実写化してぶっ飛ばしてくれたらなぁ。
でも、ベイマックスさんケアロボットだから。
きっと掃除をしてくれるのでしょう。
そして、ボクも加わるのだが、あのつぶらな瞳で
「満足しましたか?」と聞いてくるので、
「大満足さ」とボクは答え、グータッチを交わすのである。