統計検定 準1級 過去問 解答/解答例と解説
2017年06月18日 (日) 試験
選択問題及び部分記述問題 問14
問題の要約
-
次の表は,1人当たり医療費支出(2014年)と平均寿命(2013年)
※表は省略
-
次の線形回帰モデル1により,平均寿命 を 1人当たりの医療費支出 によって予測した.
モデルの仮定が成り立っているかを診断するために,次の 4つの図を用いた回帰診断を行う.-
(ア) 予測値に対する残差のプロット
-
(イ) 残差の正規 Q-Q プロット
-
(ウ) 予測値に対する標準化した残差の絶対値の平方根のプロット
-
(エ) 梃子値 (leverage) に対する標準化した残差のプロット
回帰診断図 (ア) 〜 (エ) を図1に示す.
※図1は省略
-
図 1 の中の 29 は USA(アメリカ合衆国) を表す. モデル1における USA の平均寿命の予測値と残差はいくらか. 次の 1 〜 5 のうちから最も適切なものを一つ選べ.
-
(ア) 〜 (エ) の図に対する説明として,適切でないものを次の 1 〜 5 のうちから一つ選べ.
-
-
線形回帰モデル2
モデル2に対する回帰診断図を図2に示す.※図2は省略
-
モデル1とモデル2では,決定係数の値はどちらが大きいと考えられるか.その理由を回帰診断図の中のいずれかを比較することによって述べよ.
-
解答用紙にあるモデル2の回帰診断図の残差プロットにおいて, JPN (日本) を示している点を丸で囲め.ただし,図にある 24 は ESP(スペイン) である.
-
モデル1とモデル2に対する残差の5数要約が次のように出力された. これらの違いが分かるように箱ひげ図を描け.ただし,箱ひげ図は,データの最大値と最小値までひげの部分を伸ばすものでよい.
モデル1 最小値 第1四分位数 中央値 第3四分位数 最大値 −5.4331 −0.7237 0.1326 1.4049 3.3116 モデル2 最小値 第1四分位数 中央値 第3四分位数 最大値 −4.8100 −1.0238 0.1919 1.1122 3.0357
-
解答
-
-
答 : ③ 予測値: 84.2,残差: −5.4
(ア)のグラフより判断する.横軸は予測値,縦軸は残差である.
-
答 : ⑤
(エ)では,横軸は梃子値,縦軸は標準化した残差である. 点線はクックの距離 0.5を示す. 梃子値が大きいほど当てはまりが良く,クックの距離が0.5以上だとモデルへの影響力が大きいと判断できる.よって,⑤は誤り.
[補足]
(ア) は,予測値に対する残差のプロットである.予測値の大小関係なく,残差が0の周りで一様に分布しているならば,説明変数と目的変数の線型性があると判断できる.よって,①は正しい.
-
-
-
モデル1よりモデル2の回帰診断図(ア)を比較する.
モデル1では予測値と残差に曲線の傾向があると判断できる. 一人当たりの医療費支出と平均寿命は散布図を描くと曲線上に分布することが分かる.
モデル2でも残差に曲線の影響があるが,モデル1と比べていくつかの外れ値の推定がよくなっている.このため,モデル2の方が決定係数の値が大きいと考えられる.
-
JPNとESPの医療費と平均寿命は次のとおり.
国名 JPN ESP USA 医療費 4152 3053 9024 平均寿命 83.4 83.2 78.8 (ア) より,ESPとUSAの誤差は,それぞれおよそ3.0と5.0である.ESPとUSAのデータから を求める.
より,同様に,JPNの誤差を とすると,JPNとESPの連立方程式は,より,JPNの予測値は,よって,JPNを示しているのは,点 である. -
※略解を参照
-