20150621 統計検定2級 問1[1]
次の箱ひげ図は、都道府県別のうどん(ゆでめん)の10万人辺りの生産量(トン)について、西日本(近畿以西の24府県)及び東日本(23都道府県)に分けて示したものである。なお2番目の図は、1番目の図を見やすくするために、横軸の値を0-800トンにして表示したものである。これらの箱ひげ図では、”「第3四分位数」+「四分位範囲」×1.5”以下の値を取るデータの最大値までひげを引き、それより大きな値を外れ値として示している(箱ひげ図は省略)。
資料:農林水産省「平成21年米麦加工食品生産動態等統計調査」および総務省統計局「平成22年国勢調査結果」
次の記述Ⅰ-Ⅲはこの箱ひげ図に関することである。
Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある
Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある
Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある
記述Ⅰ~Ⅲに関して、次の①~⑤のうちからもっとも適切なものを1つ選べ。
①Ⅰのみ正しい。
②Ⅱのみ正しい。
③ⅠとⅡのみ正しい。
④ⅠとⅢのみ正しい。
⑤すべて正しい。
〇正解:⑤
※正解の右を反転してください。
〇内容
箱ひげ図の内容を見て回答するだけ。
Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある
→2番目の図の最小値、西日本が低い。
Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある
→1番目の図で飛びぬけ入ている外れ値有。
Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある
→1番目の図で見れば3番目の外れ値は西日本にある。
〇詳細
これには参考となる図があり、
上記2つのリンク先にある。
表があるってんなら本当にこの箱ひげ図になるのかよって所で、上記表から
1:総務省統計局「平成22年国勢調査結果」から人口を抜き出す。(A)
2:農林水産省「平成21年米麦加工食品生産動態等統計調査」から
ゆでめんを抜き出す。(C)
3:10万人当たりの生産量よりA/100000=B(B)
4:Cのゆでめんを結果Bで割ると今回の箱ひげ図で使われている数値が出てくる。(D)
都道府県 | A | B | C | D |
人口 | 単位(10万) | ゆでめん | C/B | |
北海道 | 5507456 | 55.07456 | 7,388 | 134.1454 |
青 森 | 1373164 | 13.73164 | 1,349 | 98.24027 |
岩 手 | 1330530 | 13.3053 | 1,659 | 124.6872 |
宮 城 | 2347975 | 23.47975 | 4,567 | 194.508 |
… | … | … | … | … |
沖 縄 | 1392503 | 13.92503 | 240 | 17.23515 |
合 計 | 128056026 | 1280.56 | 187,936 | 146.7608 |
表①
表①を並び替えて表示して答えと重ね合わせる。
Ⅰ.10万人当たりの生産量が最も少ない都道府県は西日本にある。
鹿児島が最も少ないみたい。
鹿児島 | 1706428 | 17.06428 | 179 | 10.48975 |
Ⅱ.10万人当たりの生産量が最も多い都道府県は西日本にある。
まぁ、誰もがあって思う所。香川の雨は出汁が降るそうだ。
香 川 | 995779 | 9.95779 | 38,600 | 3876.362 |
Ⅲ.10万人当たりの生産量が最3番目に多い都道府県は西日本にある。
奈良。大仏だけじゃなかったのか…。
香 川 | 995779 | 9.95779 | 38,600 | 3876.362 |
群 馬 | 2008170 | 20.0817 | 12,645 | 629.6778 |
奈 良 | 1399978 | 13.99978 | 5,733 | 409.5064 |
1位が香川なので3位が奈良となる。
上記から全部〇。
じゃあ、実際に問いに出ているような箱ひげ図になるのかやってみる。
上記の表①を地域から西日本と東日本にわける。
【eastとwest】
こんな感じに加工。
value | area |
134.1454203 | east |
98.24026846 | east |
124.6871547 | east |
… | … |
10.48974818 | west |
17.23515138 | west |
加工した範囲をコピー。
で、Rを起動してごにょごにょとすると、
表②
表③
問題文に出ている表と同じ感じになる。
ごにょごにょは下記。
1:R起動。
2:y <- read.table("clipboard",header=TRUE)
/*クリップボード(コピーしたもの)をyに入れ込む
header=trueは最初の行はタイトルみたいな感じ*/
3:y
/*上記を入力すれば下記の表示がされる。
ちゃんとコピーされているかどうかわかる*/
value area
1 134.14542 east
2 98.24027 east
3 124.68715 east
4 194.50803 east
…
46 10.48975 west
47 17.23515 west
4: str(y)
'data.frame': 47 obs. of 2 variables:
$ value: num 134.1 98.2 124.7 194.5 74.9 ...
$ area : Factor w/ 2 levels "east","west": 1 1 1 1 1 1 1 1 1 1 ...
/*yの内容を情報付きで表示してくれる*/
5:y$area <- factor(y$area)
/*関数factorにてグループ化する、eastとwestに分ける*/
6: by(y$value,y$area,summary)
/*summaryを付けることで各列の5数要約、平均をピックアップ*/
y$area: east
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.59 55.54 89.50 133.60 152.90 629.70
---------------------------------------------------------------------------------------
y$area: west
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.49 40.73 105.70 268.80 153.30 3876.00
7: boxplot(y$value~y$area)
/*上記②の表を表示*/
表③は800以上を削除。つまりうどん県を削除して再度1-7を行う。
こんな感じかな。