kino's blog

ホームページ公開後の悪戦苦闘等々他2本

20150621 統計検定2級 問15[4]

次の表は、あるチェーン店の各店舗のデータを示したものである(表は省略します)。

このデータに対して、「売上高」を応答変数、ほかの変数を説明変数として、重回帰分析を行い、既存店における売上高を予測する式を求めることにした。統計ソフトウェアで分析したところ、次のような結果を得た(下記の図はSASで取得しています)。

REG プロシジャ

モデル : MODEL1

従属変数 : sales

読み込んだオブザベーション数 15
使用されたオブザベーション数 15
分散分析
要因自由度平方和平均平方F 値Pr > F
Model 5 60800 12160 73.76 <.0001
Error 9 1483.64790 164.84977    
Corrected Total 14 62284      
Root MSE 12.83938 R2 乗 0.9762
従属変数の平均 110.40000 調整済み R2 乗 0.9629
変動係数 11.62988    
パラメータ推定値
変数自由度パラメータ
推定値
標準誤差t 値Pr > |t|分散拡大
Intercept1 1.97049 32.22866 0.06 0.9526 0
pessers1 0.04927 0.01603 3.07 0.0133 8.89496
time1 -2.23524 0.86492 -2.58 0.0295 6.37019
area1 0.06360 0.40125 0.16 0.8776 8.81825
staff1 3.95895 2.66864 1.48 0.1721 4.61962
item1 0.47966 0.15941 3.01 0.0147 1.28793

 

[4]この重回帰式を用いて、次の3店舗の売上高を予測する。


②「通行者数」「最寄駅からの時間」「品目数」のみ①「通行者数」「店舗面積」「従業員数」「品目数」のみ

  A
 
B
 
C
 
D
 
E
 
F
 
1
店舗
通行者数
最寄駅からの時間
店舗面積
従業員数
品目数
2
A
1500
5
50
10
100
3
B
700
20
50
10
100
4
C
1200
4
50
10
100

このとき、各店舗の予測売上高を高い順に示しているものはどれか?

①A>B>C

A>C>B

③B>C>A

④C>A>B

⑤C>B>A

 

〇回答

〇内容

問15[3]でも少し出てきたけれど」重回帰式を使う。

\begin{eqnarray}Y=a+b_1x_1+b_2x_2…b_nx_n \end{eqnarray}

Y=答え

a=intercept(切片)

b=パラメータ

x=変数

155.085=1.970+0.049+1500-2.235×5+0.064×50+3.959×10+0.48×100

82.36=1.970+0.049+700-2.235×20+0.064×50+3.959×10+0.48×100

142.62=1.970+1.970+0.049+1200-2.235×4×50+3.959×10+0.48×100

∴155.085>142.62>82.36となり、A>C>B。つまり、②が正解となる。

20150621 統計検定2級8問目[2]

100円玉5枚、10円玉7枚、1円玉3枚の入った小銭入れから、同時にに3枚の硬貨を取り出す。いずれかの硬貨を取り出すのも同様に確からしいとする。

 

[2]取り出した3枚の金額の合計が150円である確率は幾らか?次の①~⑤から選べ。

①1/3 ②1/25 ③15/91 ④22/91 ⑤20/273

 

〇回答

   ※回答の右を反転してください。

 

〇内容

5C3 + 5C2 x 7C1 + 5C2 x 3C1 ÷ 15C3 = 0.2417582

22/91=0.2417582…となる。

 

〇詳細

8問目[1]の応用。

3枚取り出すのは変わらないので

〇全体

15C3

〇部分

150円以上である確率。

この時点で100円は2枚以上となる。

・100円3枚取り出す場合。->5C3

・100円2枚取り出す場合。->5C2

・10円1枚取り出す場合。  ->7C1

・1円1枚取り出す場合。  ->3C1

 

最終的に部分÷全体にて答えとなる。

 

Rだと。

> a<-choose(15,3)
> b<-choose(5,2)
> c<-choose(7,1)
> d<-choose(3,1)
> e<-choose(5,3)
> e+b*c+b*d
[1] 110
> f<-e+b*c+b*d
> f/a
[1] 0.2417582

 

 

20150621 統計検定2級8問目[1]

100円玉5枚、10円玉7枚、1円玉3枚の入った小銭入れから、同時にに3枚の硬貨を取り出す。いずれかの硬貨を取り出すのも同様に確からしいとする。

[1]取り出した3枚の金額の合計が111円である確率は幾らか?次の①~⑤から選べ。

①1/3 ②1/26 ③1/105 ④1/5 ⑤3/13

 

〇回答

  ※回答の右を反転してください。

 

〇内容

5x7x3/15C3=3/13

 

〇詳細

5x7x3/15C3

 

これは正確には

5C1 x 7C1 x 3C1 ÷ 15C3

5C1とかどういう意味かというと下記。

 

〇部分

5枚のうち1枚を取り出す確率 → 5C1

因みに5C1→5!/(5-1)!1!

Cは組み合わせですよって記号。

此処で組み合わせを使うのは5枚中1枚取り出すけれど、

順番どうでもいいしってな感じだから。

あ、!これは階乗っていって

5!=5x4x3x2x1

なので

5C1は詳細に書くと。

5x4x3x2x1÷4x3x2x1x1=5

 

7枚のうち1枚を取り出す確率 → 7C1

3枚のうち1枚を取り出す確率 → 3C1

〇全体

15枚のうち3枚を取り出す確率 → 15C3

 

5C1 x 7C1 X 3C1 ÷ 15C3 = 0.2307692

およそ、100回やったら23回はあるんじゃね?って事。

 

Rだとこんな感じ。

> a<-choose(15,3)
> b<-choose(5,1)
> c<-choose(7,1)
> d<-choose(3,1)
> e<-b*c*d
> e/a
[1] 0.2307692
> e
[1] 105
> a
[1] 455

 

なので回答は3/13=0.2307692。

20150621 統計検定2級 問2

国際通貨基金IMF)によると、南米のベネズエラでは、2010年の物価は2009年と比べて1.282倍、すなわち2010年の1年あたり物価上昇率は28.2%であった。同様に、2011年~2013年の1年当たり物価上昇率がそれぞれ26.1%、21.1%、40.6%であった。2010年~2013年の4年間の平均物価上昇率は何%か、次の①~⑤のうちからもっとも適切なものを1つ選べ。

 

①28.2% ②28.8% ③29.0% ④29.2% ⑤29.4%

 

〇回答

 ※回答の右を反転してください。

 

〇内容

4√28.2 x 26.1 x 21.1 x 40.6 ≒1.2881

 

〇詳細

数学がややこしいのは同じ意味なのに、言葉が色々あること。

今回使う式は相乗平均、もしくは幾何平均。意味は同じ。

n√X1 x X2 x X3 x X4

式は今回のケースで言うと上記。

数値が4つあるからX1-4まで。nは4が入る。因みに下の式も同じ意味。

n√nΠi=1 Xi

 

 

とりあえず、上記式より

4√28.2 x 26.1 x 21.1 x 40.6 ≒1.2881

 

因みに下記はSASで算出した結果。

〇code。

/*サンプルデータ作成*/

DATA test;
INPUT value;
CARDS;
1.282
1.261
1.211
1.406
RUN;

/*SAS9.2以降でのみ可能なプロシージャ*/
PROC TTEST DATA = test DIST=lognormal;
VAR value;
RUN;


DATA _null_;
SET _out;                            /*幾何平均出力*/
geomean = EXP(mean);     /*幾何平均*/
PUT geomean;
RUN;

 

TTEST プロシジャ

 

変数 : value

N幾何平均変動係数最小値最大値
4 1.2881 0.0632 1.2110 1.4060
幾何平均平均の
95% 信頼限界
変動係数変動係数の
95% 信頼限界
1.2881 1.1650 1.4242 0.0632 0.0358 0.2387
自由度t 値Pr > |t|
3 8.02 0.0040 

 

20150621 統計検定2級 問1[2]

次の箱ひげ図は、都道府県別のうどん(ゆでめん)の10万人辺りの生産量(トン)について、西日本(近畿以西の24府県)及び東日本(23都道府県)に分けて示したものである。なお2番目の図は、1番目の図を見やすくするために、横軸の値を0-800トンにして表示したものである。これらの箱ひげ図では、”「第3四分位数」+「四分位範囲」×1.5”以下の値を取るデータの最大値までひげを引き、それより大きな値を外れ値として示している(箱ひげ図は省略)。

 

[2]この箱ひげ図からよみとれることとして不適切なものを、次の①~⑤のうちから1つ選べ。

①600トン以上の都道府県の数は東日本と西日本で同数である

②100トン以下の都道府県の数は西日本の方が多い

③範囲は西日本の方が大きい

④第1四分位数は東日本の方が大きい

⑤西日本の府県の中に平均を100トン以上押し上げる外れ値があるので、平均は西日本の方が大きいと推察できる。

 

〇回答

※回答の右を反転してください。

 

〇内容

これも箱ひげ図を見て。

①600トン以上の都道府県の数は東日本と西日本で同数である

→2番目の図で東日本が600トン以上が一つで、1番目の図にも西日本4000トン近くの一つ。なので、同数。

②100トン以下の都道府県の数は西日本の方が多い。

→2番目の図の東西中央値を見ると、東が100を切っている。よって東日本が多いと言える。

③範囲は西日本の方が大きい

範囲=最大値ー最小値。いわずもがな、西日本です。

④第1四分位数は東日本の方が大きい

箱の左辺がそう。東日本が高い。

⑤西日本の府県の中に平均を100トン以上押し上げる外れ値があるので、平均は西日本の方が大きいと推察できる。

 

→西日本の総数は24なので4000と仮定して4000/24=166.66

100<166.66

 

〇詳細

①600トン以上の都道府県の数は東日本と西日本で同数である

香 川 995779 9.95779 38,600 3876.362
群 馬 2008170 20.0817 12,645 629.6778
奈 良 1399978 13.99978 5,733 409.5064

西の香川と東の群馬のみなので同数。

 

②100トン以下の都道府県の数は西日本の方が多い

 

岡 山 1944986 19.44986 1,934 99.43516 西
青 森 1373164 13.73164 1,349 98.24027
茨 城 2968865 29.68865 2,657 89.49548
栃 木 2007014 20.07014 1,724 85.89875
広 島 2860769 28.60769 2,284 79.83867 西
長 野 2152736 21.52736 1,706 79.24799
秋 田 1085878 10.85878 813 74.87029
島 根 716354 7.16354 486 67.84355 西
石 川 1170040 11.7004 737 62.9893
山 形 1168789 11.68789 701 59.97661
神奈川 9049500 90.495 4,625 51.1078
東 京 13161751 131.6175 6,527 49.59067
千 葉 6217119 62.17119 2,810 45.19778
佐 賀 849709 8.49709 383 45.07425 西
高 知 764596 7.64596 334 43.6832 西
大 阪 8862896 88.62896 3,690 41.63425 西
大 分 1196409 11.96409 455 38.03047 西
長 崎 1426594 14.26594 421 29.51085 西
山 梨 862772 8.62772 221 25.61511
新 潟 2374922 23.74922 512 21.5586
福 井 806470 8.0647 158 19.59155
沖 縄 1392503 13.92503 240 17.23515 西
鳥 取 588418 5.88418 100 16.99472 西
宮 崎 1135120 11.3512 189 16.65022 西
鹿児島 1706428 17.06428 179 10.48975 西

上記表から 東13 西11で東が多い。

なので、この時点で答えは2

 

③範囲は西日本の方が大きい

y$area: east
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.59 55.54 89.50 133.60 152.90 629.70
---------------------------------------------------------------------------------------
y$area: west
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.49 40.73 105.70 268.80 153.30 3876.00

上記から3stQu-1stQu=範囲

東:152.9-55.54=97.36

西:153.3-40.73=112.57

 

④第1四分位数は東日本の方が大きい

東:55.54

西:40.73

 

⑤西日本の府県の中に平均を100トン以上押し上げる外れ値があるので、平均は西日本の方が大きいと推察できる。

y$area: east
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.59 55.54 89.50 133.60 152.90 629.70
---------------------------------------------------------------------------------------
y$area: west
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.49 40.73 105.70 268.80 153.30 3876.00

平均はmeanなので

東:133.6

西:268.8

 

 

20150621 統計検定2級 問1[1]

次の箱ひげ図は、都道府県別のうどん(ゆでめん)の10万人辺りの生産量(トン)について、西日本(近畿以西の24府県)及び東日本(23都道府県)に分けて示したものである。なお2番目の図は、1番目の図を見やすくするために、横軸の値を0-800トンにして表示したものである。これらの箱ひげ図では、”「第3四分位数」+「四分位範囲」×1.5”以下の値を取るデータの最大値までひげを引き、それより大きな値を外れ値として示している(箱ひげ図は省略)。

 

資料:農林水産省「平成21年米麦加工食品生産動態等統計調査」および総務省統計局「平成22年国勢調査結果」

 

次の記述Ⅰ-Ⅲはこの箱ひげ図に関することである。

Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある

Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある

Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある

 

記述Ⅰ~Ⅲに関して、次の①~⑤のうちからもっとも適切なものを1つ選べ。

①Ⅰのみ正しい。

②Ⅱのみ正しい。

③ⅠとⅡのみ正しい。

④ⅠとⅢのみ正しい。

⑤すべて正しい。

 

〇正解

 ※正解の右を反転してください。

 

〇内容

箱ひげ図の内容を見て回答するだけ。

Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある

→2番目の図の最小値、西日本が低い。

Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある

→1番目の図で飛びぬけ入ている外れ値有。

Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある

→1番目の図で見れば3番目の外れ値は西日本にある。

 

〇詳細

これには参考となる図があり、

農林水産省/米麦加工食品生産動態等統計調査

統計局ホームページ/平成22年国勢調査

上記2つのリンク先にある。

 

表があるってんなら本当にこの箱ひげ図になるのかよって所で、上記表から

1:総務省統計局「平成22年国勢調査結果」から人口を抜き出す。(A)

2:農林水産省「平成21年米麦加工食品生産動態等統計調査」から

ゆでめんを抜き出す。(C)

3:10万人当たりの生産量よりA/100000=B(B)

4:Cのゆでめんを結果Bで割ると今回の箱ひげ図で使われている数値が出てくる。(D)

 

都道府県  A  B  C  D
 人口  単位(10万) ゆでめん  C/B
北海道 5507456 55.07456 7,388 134.1454
青 森 1373164 13.73164 1,349 98.24027
岩 手 1330530 13.3053 1,659 124.6872
宮 城 2347975 23.47975 4,567 194.508
沖 縄 1392503 13.92503 240 17.23515
合 計 128056026 1280.56 187,936 146.7608

表①

表①を並び替えて表示して答えと重ね合わせる。

Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある。

鹿児島が最も少ないみたい。

鹿児島 1706428 17.06428 179 10.48975

Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある。

まぁ、誰もがあって思う所。香川の雨は出汁が降るそうだ。

香 川 995779 9.95779 38,600 3876.362

Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある。

奈良。大仏だけじゃなかったのか…。

香 川 995779 9.95779 38,600 3876.362
群 馬 2008170 20.0817 12,645 629.6778
奈 良 1399978 13.99978 5,733 409.5064

1位が香川なので3位が奈良となる。

 

上記から全部〇。

 

じゃあ、実際に問いに出ているような箱ひげ図になるのかやってみる。

上記の表①を地域から西日本と東日本にわける。

【eastとwest】

こんな感じに加工。

 

value area
134.1454203 east
98.24026846 east
124.6871547 east
10.48974818 west
17.23515138 west

加工した範囲をコピー。

 

で、Rを起動してごにょごにょとすると、 

f:id:kino2014:20150630005600p:plain

表②

f:id:kino2014:20150630005356p:plain

表③

問題文に出ている表と同じ感じになる。

 

ごにょごにょは下記。

1:R起動。

2:y <- read.table("clipboard",header=TRUE)

/*クリップボード(コピーしたもの)をyに入れ込む

header=trueは最初の行はタイトルみたいな感じ*/

3:y

/*上記を入力すれば下記の表示がされる。

ちゃんとコピーされているかどうかわかる*/

  value area
1 134.14542 east
2 98.24027 east
3 124.68715 east
4 194.50803 east

46 10.48975 west
47 17.23515 west

4: str(y)

'data.frame': 47 obs. of 2 variables:
$ value: num 134.1 98.2 124.7 194.5 74.9 ...
$ area : Factor w/ 2 levels "east","west": 1 1 1 1 1 1 1 1 1 1 ...

/*yの内容を情報付きで表示してくれる*/

5:y$area <- factor(y$area)

/*関数factorにてグループ化する、eastとwestに分ける*/

6: by(y$value,y$area,summary)

/*summaryを付けることで各列の5数要約、平均をピックアップ*/
y$area: east
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.59 55.54 89.50 133.60 152.90 629.70
---------------------------------------------------------------------------------------
y$area: west
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.49 40.73 105.70 268.80 153.30 3876.00

7: boxplot(y$value~y$area)

/*上記②の表を表示*/

 表③は800以上を削除。つまりうどん県を削除して再度1-7を行う。

こんな感じかな。

ベイマックス感想参戦!

「最近、映画マナーが悪い人が増えています」

ふーん…って思いながら、ベイマックス見てきましたー。

「恐怖を覚える」「日本のクリエイティブは死んだ…」「人工知能

等ブログで色々言われているからボクも昨日見てきたんだけれどね。

 

「恐怖を覚える」

ボクは「恐怖を覚える」って言うと、

ベジータフリーザと対戦した時のガクブル感。

あれを思い出すんだけれど。

話がずれました。

 

「日本のクリエイティブは死んだ」

日本のアニメは2位、5位、6位と入っているのだけれど…。

 

人工知能

ジョンラセターさんていう人が制作総指揮なんだけれど、

「コンピュータを使って人が特別なアニメーションを作る」

と言っているんだけれどなー。

NHK 魔法の映画はこうして生まれる」で検索すると出てきます。

 

ただ、ブログを読むと普段映画を見てないとか、アニメは好きじゃないとか

そういう人の足を運ばせるってのは、ディズニーマジックすげーなって思いました。

 

感想?

隣のDQNカップルが袋のスナック菓子を持ち込んでいてうるさかった。

更にエンドロール中に抜け出して、その席はゴミだらけ。

将来映画が3D化するなら、ベイマックスのロケットパンチ

3Dプリンタを利用して実写化してぶっ飛ばしてくれたらなぁ。

でも、ベイマックスさんケアロボットだから。

きっと掃除をしてくれるのでしょう。

そして、ボクも加わるのだが、あのつぶらな瞳で

「満足しましたか?」と聞いてくるので、

「大満足さ」とボクは答え、グータッチを交わすのである。