統計検定 準1級 過去問 解答/解答例と解説
2017年06月18日 (日) 試験

選択問題及び部分記述問題 問3

問題の要約
  • xi,1, , xi,227 : 227次元の説明変数

  • yi{1,+1} : 2値の応答変数からなるジヒドロ葉酸還元酵素のデータ (i=1, , 325)

  • β0, β1, , β227 : 回帰パラメータ

  • L1 正則化ロジスティック 回帰分析と L2 正則化ロジスティック回帰分析を行う.

  • 正則化項を加味し,対数尤度を最大化するように回帰パラメータを決定

  • 最適化問題

    i=1325log(1+exp[yi(β0+j=1227βjxi,j)])+λj=1227|βj|qmin
    λ>0 : 正則化パラメータ

  • 上式の第1項は,対数尤度の −1 倍に次を代入して整理したもの

    logpi1pi=β0+j=1227βjxi,j,    i=1, , 325
    0<pi<1 : 第 i 番目の応答変数 yi に対応する確率変数が値 1 をとる確率

  1. 正則化パラメータ λ の値を定めるために,λ の各値に対して次を行い,次の図を得た.

    1. データの一部を用いて回帰パラメー タの推定

    2. 推定されたモデルで残りのデータに対する予測誤差を評価

    ※図は省略

    図より,いずれの手法に対しても,λ=e4=0.018 付近が最適であると判断.

    このように λ を求める方法の名称を答えよ.

  2. ふたつの手法について,λ の各値に対し,β0, β1, , β227 を推定.

    特に,パラメータの中でゼロと推定されなかったものの個数をプロットし,次の図を得た.

    ※図は省略

    この図が示す,L1 正則化と L2 正則化の性質の違いを簡潔に説明せよ.

解答
  1. 答 : クロスバリデーション(交差検証法)

  2. 答 : L1 正則化には回帰係数の多くをゼロと推定する傾向 (スパース性) があるが,L2 正則化にはスパース性はない.

    ※略解より抜粋