kino's blog

ホームページ公開後の悪戦苦闘等々他2本

20150621 統計検定2級 問1[1]

次の箱ひげ図は、都道府県別のうどん(ゆでめん)の10万人辺りの生産量(トン)について、西日本(近畿以西の24府県)及び東日本(23都道府県)に分けて示したものである。なお2番目の図は、1番目の図を見やすくするために、横軸の値を0-800トンにして表示したものである。これらの箱ひげ図では、”「第3四分位数」+「四分位範囲」×1.5”以下の値を取るデータの最大値までひげを引き、それより大きな値を外れ値として示している(箱ひげ図は省略)。

 

資料:農林水産省「平成21年米麦加工食品生産動態等統計調査」および総務省統計局「平成22年国勢調査結果」

 

次の記述Ⅰ-Ⅲはこの箱ひげ図に関することである。

Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある

Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある

Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある

 

記述Ⅰ~Ⅲに関して、次の①~⑤のうちからもっとも適切なものを1つ選べ。

①Ⅰのみ正しい。

②Ⅱのみ正しい。

③ⅠとⅡのみ正しい。

④ⅠとⅢのみ正しい。

⑤すべて正しい。

 

〇正解

 ※正解の右を反転してください。

 

〇内容

箱ひげ図の内容を見て回答するだけ。

Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある

→2番目の図の最小値、西日本が低い。

Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある

→1番目の図で飛びぬけ入ている外れ値有。

Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある

→1番目の図で見れば3番目の外れ値は西日本にある。

 

〇詳細

これには参考となる図があり、

農林水産省/米麦加工食品生産動態等統計調査

統計局ホームページ/平成22年国勢調査

上記2つのリンク先にある。

 

表があるってんなら本当にこの箱ひげ図になるのかよって所で、上記表から

1:総務省統計局「平成22年国勢調査結果」から人口を抜き出す。(A)

2:農林水産省「平成21年米麦加工食品生産動態等統計調査」から

ゆでめんを抜き出す。(C)

3:10万人当たりの生産量よりA/100000=B(B)

4:Cのゆでめんを結果Bで割ると今回の箱ひげ図で使われている数値が出てくる。(D)

 

都道府県  A  B  C  D
 人口  単位(10万) ゆでめん  C/B
北海道 5507456 55.07456 7,388 134.1454
青 森 1373164 13.73164 1,349 98.24027
岩 手 1330530 13.3053 1,659 124.6872
宮 城 2347975 23.47975 4,567 194.508
沖 縄 1392503 13.92503 240 17.23515
合 計 128056026 1280.56 187,936 146.7608

表①

表①を並び替えて表示して答えと重ね合わせる。

Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある。

鹿児島が最も少ないみたい。

鹿児島 1706428 17.06428 179 10.48975

Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある。

まぁ、誰もがあって思う所。香川の雨は出汁が降るそうだ。

香 川 995779 9.95779 38,600 3876.362

Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある。

奈良。大仏だけじゃなかったのか…。

香 川 995779 9.95779 38,600 3876.362
群 馬 2008170 20.0817 12,645 629.6778
奈 良 1399978 13.99978 5,733 409.5064

1位が香川なので3位が奈良となる。

 

上記から全部〇。

 

じゃあ、実際に問いに出ているような箱ひげ図になるのかやってみる。

上記の表①を地域から西日本と東日本にわける。

【eastとwest】

こんな感じに加工。

 

value area
134.1454203 east
98.24026846 east
124.6871547 east
10.48974818 west
17.23515138 west

加工した範囲をコピー。

 

で、Rを起動してごにょごにょとすると、 

f:id:kino2014:20150630005600p:plain

表②

f:id:kino2014:20150630005356p:plain

表③

問題文に出ている表と同じ感じになる。

 

ごにょごにょは下記。

1:R起動。

2:y <- read.table("clipboard",header=TRUE)

/*クリップボード(コピーしたもの)をyに入れ込む

header=trueは最初の行はタイトルみたいな感じ*/

3:y

/*上記を入力すれば下記の表示がされる。

ちゃんとコピーされているかどうかわかる*/

  value area
1 134.14542 east
2 98.24027 east
3 124.68715 east
4 194.50803 east

46 10.48975 west
47 17.23515 west

4: str(y)

'data.frame': 47 obs. of 2 variables:
$ value: num 134.1 98.2 124.7 194.5 74.9 ...
$ area : Factor w/ 2 levels "east","west": 1 1 1 1 1 1 1 1 1 1 ...

/*yの内容を情報付きで表示してくれる*/

5:y$area <- factor(y$area)

/*関数factorにてグループ化する、eastとwestに分ける*/

6: by(y$value,y$area,summary)

/*summaryを付けることで各列の5数要約、平均をピックアップ*/
y$area: east
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.59 55.54 89.50 133.60 152.90 629.70
---------------------------------------------------------------------------------------
y$area: west
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.49 40.73 105.70 268.80 153.30 3876.00

7: boxplot(y$value~y$area)

/*上記②の表を表示*/

 表③は800以上を削除。つまりうどん県を削除して再度1-7を行う。

こんな感じかな。