回帰分析(後編)

データサイエンス : 第4回 (10/29/18)

  1. [おまけ] 回帰分析における変数選択、総当たり法 :  回帰分析では回帰係数や重相関係数を知ることだけでなく 残差解析も重要であることを強調したつもりである。 次に説明変数の取捨選択(変数選択)について説明する。

    1. プログラム : DSles0405.sas

       /* Lesson 04-5 */
       /*    File Name = les0405.sas   10/29/18   */
      options linesize=72 pagesize=20;
      options nocenter linesize=78 pagesize=30;
      
      proc printto log   = 'Kougi/les0405_log.txt'
                   print = 'Kougi/les0405_Results.txt' new;
      
      ods listing gpath='Kougi/SAS_ODS99';
      
      data air;
        infile '/folders/myfolders/Kougi/usair2.prn';
        input id $ y x1 x2 x3 x4 x5 x6;
      /*
        label y='SO2 of air in micrograms per cubic metre'
              x1='Average annual temperature in F'
              x2='Number of manufacturing enterprises employing 20 or more workers'
              x3='Population size (1970 census); in thousands'
              x4='Average annual wind speed in miles per hour'
              x5='Average annual precipitation in inches'
              x6='Average number of days with precipitation per year'
      ;
      */
      
      proc print data=air(obs=10);
      run;
      
      proc corr data=air;
      run;
      
      proc reg data=air;                                       :
        model y=x1 x2 x3 x4 x5 x6;                             : フルモデル
        output out=outreg1 predicted=pred1 residual=resid1;    :
      run;                                                     :
      
      proc plot data=outreg1;
        plot resid1*pred1 /vref=0;                             :
        plot resid1*x1    /vref=0;                             : ズラズラと列記
        plot resid1*x2    /vref=0;                             :
        plot resid1*x3    /vref=0;                             :
        plot resid1*x4    /vref=0;                             :
        plot resid1*x5    /vref=0;                             :
        plot resid1*x6    /vref=0;                             :
        plot resid1*y     /vref=0;                             :
      run;
      
      proc reg data=air;                                       :
        model y=x1-x6 / selection=stepwise;                    : 逐次増減法
        output out=outreg1 predicted=pred1 residual=resid1;    : 連続変数の指定方法
      run;                                                     :
      
      proc print data=outreg1(obs=15);
      run;
      
      proc plot data=outreg1;
        plot resid1*pred1               /vref=0;            :
        plot resid1*(x1 x2 x3 x4 x5 x6) /vref=0;            : 簡略形(上と比較せよ)
        plot resid1*(x1-x6)             /vref=0;            : 簡略形(これも同じ意味)
        plot resid1*y                   /vref=0;            :
      run;
      
      proc reg data=air;                                       :
        model y=x1-x6 / selection=rsquare;                     : 総当たり法
      run;                                                     :
      
    2. 出力結果 : DSles0405_Results.txt , DSles0405_out.pdf
                                     2018年10月26日 金曜日 10時19分59秒   1
      OBS    id           y     x1      x2     x3     x4      x5      x6
      
        1    Phoenix     10    70.3    213    582    6.0     7.05     36
        2    Little_R    13    61.0     91    132    8.2    48.52    100
        3    San_Fran    12    56.7    453    716    8.7    20.66     67
        4    Denver      17    51.9    454    515    9.0    12.95     86
        5    Hartford    56    49.1    412    158    9.0    43.37    127
        6    Wilmingt    36    54.0     80     80    9.0    40.25    114
        7    Washingt    29    57.3    434    757    9.3    38.89    111
        8    Jacksonv    14    68.4    136    529    8.8    54.47    116
        9    Miami       10    75.5    207    335    9.0    59.80    128
       10    Atlanta     24    61.5    368    497    9.1    48.34    115
      
                                     2018年10月26日 金曜日 10時19分59秒   2
      CORR プロシジャ
      
         7  変数 :    y        x1       x2       x3       x4       x5       x6    
      
                              単純統計量
       
      変数             N        平均            標準偏差        合計
      
      y                 41      30.04878        23.47227          1232
      
       
      変数             N        平均            標準偏差        合計
      
      x1                41      55.76341         7.22772          2286
      x2                41     463.09756       563.47395         18987
      x3                41     608.60976       579.11302         24953
      x4                41       9.44390         1.42864     387.20000
      x5                41      36.76902        11.77155          1508
      x6                41     113.90244        26.50642          4670
      
      
                                     2018年10月26日 金曜日 10時20分00秒   5
      CORR プロシジャ
                          Pearson の相関係数, N = 41
                         H0: Rho=0 に対する Prob > |r|
       
                 y        x1        x2        x3        x4        x5        x6
      
      y    1.00000  -0.43360   0.64477   0.49378   0.09469   0.05429   0.36956
                      0.0046    <.0001    0.0010    0.5559    0.7360    0.0174
      
      x1  -0.43360   1.00000  -0.19004  -0.06268  -0.34974   0.38625  -0.43024
            0.0046              0.2340    0.6970    0.0250    0.0126    0.0050
      
      x2   0.64477  -0.19004   1.00000   0.95527   0.23795  -0.03242   0.13183
            <.0001    0.2340              <.0001    0.1341    0.8405    0.4113
      
      x3   0.49378  -0.06268   0.95527   1.00000   0.21264  -0.02612   0.04208
            0.0010    0.6970    <.0001              0.1819    0.8712    0.7939
      
      x4   0.09469  -0.34974   0.23795   0.21264   1.00000  -0.01299   0.16411
            0.5559    0.0250    0.1341    0.1819              0.9357    0.3052
      
      x5   0.05429   0.38625  -0.03242  -0.02612  -0.01299   1.00000   0.49610
            0.7360    0.0126    0.8405    0.8712    0.9357              0.0010
      
      x6   0.36956  -0.43024   0.13183   0.04208   0.16411   0.49610   1.00000
            0.0174    0.0050    0.4113    0.7939    0.3052    0.0010          
      
                                     2018年10月26日 金曜日 10時20分00秒   8
      
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
      
      読み込んだオブザベーション数          41
      使用されたオブザベーション数          41
      
                                      分散分析
      要因                   自由度      平方和       平均平方       F 値     Pr > F
      Model                       6         14755      2459.10601     11.48   <.0001
      Error                      34    7283.26641      214.21372                   
      Corrected Total            40         22038                                  
      
      Root MSE                    14.63604    R2 乗                  0.6695
      従属変数の平均              30.04878    調整済み R2 乗         0.6112
      変動係数                    48.70761                                  
      
                               パラメータの推定
                              パラメータ
      変数             自由度          推定値       標準誤差     t 値   Pr > |t|
      
      Intercept           1         111.72848       47.31810      2.36     0.0241
      x1                  1          -1.26794        0.62118     -2.04     0.0491
      x2                  1           0.06492        0.01575      4.12     0.0002
      x3                  1          -0.03928        0.01513     -2.60     0.0138
      x4                  1          -3.18137        1.81502     -1.75     0.0887
      x5                  1           0.51236        0.36276      1.41     0.1669
      x6                  1          -0.05205        0.16201     -0.32     0.7500
      
                                     2018年10月26日 金曜日 10時20分04秒  11
             プロット : resid1*pred1   凡例 : A = 1 obs, B = 2 obs, ...
              |
           50 +                               A
       残     |
       差     |                         A
           25 +
              |         A       A       B
              |              B      B   A       A    B
            0 +--------------AAA-----ABAAAA---------A-----------------------A------
              |                  A CB  BA
              |                        C A    A
          -25 +                                A
              ---+--------+--------+--------+--------+--------+--------+--------+--
                -20       0       20       40       60       80       100      120
                                           予測値 y
      
                                     2018年10月26日 金曜日 10時20分04秒  19
      
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
      
      読み込んだオブザベーション数          41
      使用されたオブザベーション数          41
       
      ステップワイズ法: ステップ 1
      
      変数 x2 の追加 : R2 乗 = 0.4157 C(p) = 23.1089
      
                                      分散分析
      要因                   自由度      平方和       平均平方      F 値   Pr > F
      
      Model                       1    9161.74469     9161.74469     27.75   <.0001
      Error                      39         12876      330.15789                   
      Corrected Total            40         22038                                  
      
                 パラメータ                      Type II
      変数               推定値       標準誤差    平方和    F 値  Pr > F
      
      Intercept         17.61057       3.69159   7513.50474    22.76  <.0001
      x2                 0.02686       0.00510   9161.74469    27.75  <.0001
      
      条件数における境界 : 1, 1
      ------------------------------------------------------------------------------
      
      ステップワイズ法: ステップ 2
                                     2018年10月26日 金曜日 10時20分04秒  22
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
       
      変数 x3 の追加 : R2 乗 = 0.5863 C(p) = 7.5586
      
                                      分散分析
      要因                   自由度     平方和       平均平方        F 値   Pr > F
      Model                       2         12921     6460.63359     26.93   <.0001
      Error                      38    9116.63526      239.91145                   
      Corrected Total            40         22038                                  
      
                 パラメータ                      Type II
      変数              推定値       標準誤差     平方和    F 値  Pr > F
      Intercept         26.32508       3.84044        11273    46.99  <.0001
      x2                 0.08243       0.01470   7548.02378    31.46  <.0001
      x3                -0.05661       0.01430   3759.52248    15.67  0.0003
      
      条件数における境界 : 11.434, 45.735
      ------------------------------------------------------------------------------
      
      ステップワイズ法: ステップ 3
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
       
      変数 x6 の追加 : R2 乗 = 0.6174 C(p) = 6.3610
      
                                        分散分析
      要因                  自由度       平方和       平均平方     F 値   Pr > F
      Model                       3         13606     4535.41173     19.90   <.0001
      Error                      37    8431.66725      227.88290                   
      Corrected Total            40         22038                                  
      
                 パラメータ                    Type II
      変数              推定値      標準誤差      平方和      F 値   Pr > F
      Intercept          6.96585      11.77691     79.72552     0.35  0.5578
      x2                 0.07433       0.01507   5547.32154    24.34  <.0001
      x3                -0.04939       0.01454   2628.36952    11.53  0.0016
      x6                 0.16436       0.09480    684.96801     3.01  0.0913
      
      条件数における境界 : 12.65, 78.633
      ------------------------------------------------------------------------------
      
      モデル内のすべての変数は水準 0.1500 で有意です。
      
      モデルへの変数追加で、他の変数は有意水準 0.1500 
      で満たされていません。
      
                           ステップワイズ法の要約
                   変数の 変数の 取り込んだ
      ステップ 追加    削除     変数の数   偏 R2 乗 モデル R2 乗
      
            1      x2                          1         0.4157        0.4157     
            2      x3                          2         0.1706        0.5863     
            3      x6                          3         0.0311        0.6174     
      
          ステップワイズ法の要約
      ステップ  C(p)        F 値    Pr > F
      
            1      23.1089      27.75    <.0001
            2       7.5586      15.67    0.0003
            3       6.3610       3.01    0.0913
      
                                     2018年10月26日 金曜日 10時20分06秒  31
      
      OBS  id          y   x1    x2    x3    x4     x5    x6     pred1    resid1
      
        1  Phoenix    10  70.3   213   582   6.0   7.05   36    -0.032   10.0316
        2  Little_R   13  61.0    91   132   8.2  48.52  100    23.646  -10.6461
        3  San_Fran   12  56.7   453   716   8.7  20.66   67    16.285   -4.2849
        4  Denver     17  51.9   454   515   9.0  12.95   86    29.410  -12.4103
        5  Hartford   56  49.1   412   158   9.0  43.37  127    50.661    5.3392
        6  Wilmingt   36  54.0    80    80   9.0  40.25  114    27.698    8.3020
        7  Washingt   29  57.3   434   757   9.3  38.89  111    20.079    8.9208
        8  Jacksonv   14  68.4   136   529   8.8  54.47  116    10.011    3.9887
        9  Miami      10  75.5   207   335   9.0  59.80  128    26.844  -16.8439
       10  Atlanta    24  61.5   368   497   9.1  48.34  115    28.673   -4.6731
       11  Chicago   110  50.6  3344  3369  10.4  34.44  122   109.181    0.8191
       12  Indianap   28  52.3   361   746   9.7  38.74  121    16.840   11.1603
       13  Des_Moin   17  49.0   104   201  11.2  30.85  103    21.697   -4.6973
       14  Wichita     8  56.6   125   277  12.7  30.58   82    16.053   -8.0528
       15  Louisvil   30  55.6   291   593   8.3  43.11  123    19.522   10.4776
      
                                     2018年10月26日 金曜日 10時20分06秒  32
             プロット : resid1*pred1   凡例 : A = 1 obs, B = 2 obs, ...
           50 +                         A
              |
       残     |                  A
       差     |                B
              | A        AAB   A            A A
            0 +-----A-A--A--BAA-AAA---------A-------------------------------A-------
              |          BAA BAAA   A                  A
              |               AA   A  A  A
              |                       A
              |
          -50 +
              --+----------+----------+----------+----------+----------+----------+-
                0         20         40         60         80         100        120
                                            予測値 y
      
                                     2018年10月26日 金曜日 10時20分06秒  46
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
       
      R2 乗選択法
      
      読み込んだオブザベーション数          41
      使用されたオブザベーション数          41
      
      取り込んだ
       変数の数      R2 乗    モデルの独立変数
                1        0.4157    x2                      
                1        0.2438    x3                      
                1        0.1880    x1                      
                1        0.1366    x6                      
                1        0.0090    x4                      
                1        0.0029    x5                      
      -----------------------------------------------------
                2        0.5863    x2 x3                   
                2        0.5161    x1 x2                   
                2        0.4981    x2 x6                   
                2        0.4214    x2 x5                   
                2        0.4194    x2 x4                   
                2        0.4066    x1 x3                   
                2        0.3657    x3 x6                   
                2        0.2483    x3 x5                   
                2        0.2458    x1 x5                   
                2        0.2439    x3 x4                   
                2        0.2291    x1 x6                   
                2        0.1917    x1 x4                   
                2        0.1587    x5 x6                   
                2        0.1378    x4 x6                   
                2        0.0120    x4 x5                   
      -----------------------------------------------------
                3        0.6174    x2 x3 x6                
                3        0.6125    x1 x2 x3                
                3        0.5930    x2 x3 x5                
                3        0.5930    x2 x3 x4                
                3        0.5622    x1 x2 x5                
                3        0.5452    x1 x2 x6                
                3        0.5452    x1 x2 x4                
                3        0.5083    x2 x4 x6                
                3        0.5047    x2 x5 x6                
                3        0.4649    x1 x3 x5                
                3        0.4446    x1 x3 x6                
                3        0.4320    x1 x3 x4                
                3        0.4250    x2 x4 x5                
                3        0.3808    x3 x5 x6                
                3        0.3702    x3 x4 x6                
                3        0.2550    x1 x4 x5                
                3        0.2484    x3 x4 x5                
                3        0.2462    x1 x5 x6                
                3        0.2332    x1 x4 x6                
                3        0.1590    x4 x5 x6                
      -----------------------------------------------------
                4        0.6396    x1 x2 x3 x5             
                4        0.6329    x1 x2 x3 x4             
                4        0.6291    x1 x2 x3 x6             
                4        0.6285    x2 x3 x4 x6             
                4        0.6176    x2 x3 x5 x6             
                4        0.6028    x1 x2 x4 x5             
                4        0.5997    x2 x3 x4 x5             
                4        0.5747    x1 x2 x4 x6             
                4        0.5622    x1 x2 x5 x6             
                4        0.5164    x2 x4 x5 x6             
                4        0.5035    x1 x3 x4 x5             
                4        0.4708    x1 x3 x4 x6             
                4        0.4649    x1 x3 x5 x6             
                4        0.3871    x3 x4 x5 x6             
                4        0.2550    x1 x4 x5 x6             
      -----------------------------------------------------
                5        0.6685    x1 x2 x3 x4 x5          
                5        0.6501    x1 x2 x3 x4 x6          
                5        0.6396    x1 x2 x3 x5 x6          
                5        0.6290    x2 x3 x4 x5 x6          
                5        0.6040    x1 x2 x4 x5 x6          
                5        0.5043    x1 x3 x4 x5 x6          
      -----------------------------------------------------
                6        0.6695    x1 x2 x3 x4 x5 x6       
    3. 結果の見方
      • フルモデル
      • 逐次選択法(stepwise)
        • 変量増減法。
        • 一度取り込まれても、組合わせによっては削除される。
      • 総当たり法(rsquare)
        • 説明変数の組合わせ毎の決定係数(R^2)が表示される : 大きい順に
        • モデルの探索用。
        • 決定係数 : R-Square : 1 に近いほど当てはまりが良いと言える
        • 説明変数が増えると大きくなるのが一般的
        • 興味のある組合わせを見つけ出して、このあと計算させる。残差解析も行うこと。
      • 他に、前進選択法(forward)、後退選択法(backward)、...
      • 「数値計算上の最適モデル」と「その分野の知識からの最適モデル」には違いがあることを知っておくこと。
      • 残差解析はいつの場合でも必要
        • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 均等に散らばっているか?
        • 傾向はないか? : 傾向があると言うことは正規性の仮定が崩れていること
        • ...
      • ...
[DIR]講義のホームページへ戻ります