回帰分析

能力測定法特論 : 第04回 (10/29/04)

 過去のデータからその構造を把握し、新規に測定されたデータに対する予測を 行ないたいと言うときに、回帰分析は有用である。 構造のシンプルな単回帰分析でこの手法の原理を理解し、 複数の説明変量を用いた重回帰分析に拡張する。 残差の取り方や、その二乗和を最少にするという考えは同じである。
 ここでは SAS プログラムとその出力を例示しながら説明するが、 手慣れたプログラム言語を使って各自実践してほしい。
  1. 単回帰分析 : 予測等に使う、連続変量の関係

    1. プログラム : les1101.sas
       /* Lesson 11-1 */
       /*    File Name = les1101.sas   07/01/04   */
      
      data gakusei;
        infile 'all04a.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc reg data=gakusei;                                 : 回帰分析
        model taijyuu=shintyou;                              : 変量を指定
        output out=outreg1 predicted=pred1 residual=resid1;  : 結果項目の保存
      run;                                                   :
                                                             :
      proc print data=outreg1(obs=15);                       : 表示してみる
      run;                                                   :
                                                             :
      proc plot data=outreg1;                        : 散布図を描く
        plot taijyuu*shintyou/vaxis=20 to 100 by 20; : 体重と身長(縦軸指定)
        plot pred1*taijyuu;                          : 予測値と観測値
        plot resid1*pred1   /vref=0;                 : 残差と予測値(残差解析)(水平軸指定)
        plot resid1*shintyou/vref=0;                 : 残差と説明変数(残差解析)
        plot resid1*taijyuu /vref=0;                 : 残差と目的変数(残差解析)
      run;                                           :
                                                     :
      proc univariate data=outreg1 plot normal;      : 残差を正規プロットして確かめる
        var resid1;                                  :
      run;                                           :
      
      [備考] 上記のコロン以降は説明のためのものであり、 SAS のプログラムではありません。
      [補足] proc plot の下に以下の行を追加した方がより正確ではある。 欠損値を含むデータを解析対象から除外する事を指示する命令文である。 「欠損値です」の表示が無くなるだけで、得られる図は同じ(欠損値は描画できないから)。 試しに追加する/しないの両方で実行してみよ。
        where shintyou^=. and taijyuu^=.;
      
    2. 出力結果 : les1101.lst
                                    SAS システム                             1
                                                14:49 Wednesday, June 30, 2004
      
        OBS  SEX  SHINTYOU  TAIJYUU  KYOUI  JITAKU  KODUKAI  CARRYER  TSUUWA
      
          1   F     145.0     38.0      .     J      10000                . 
          2   F     148.0     42.0      .     J      50000                . 
          3   F     148.0     43.0     80     J      50000   DoCoMo    4000 
          4   F     148.9       .       .     J      60000                . 
          5   F     149.0     45.0      .     G      60000                . 
          6   F     150.0     46.0     86            40000                . 
          7   F     151.0     50.0      .     G      60000   J-PHONE      . 
          8   F     151.7     41.5     80     J      35000                . 
          9   F     152.0     35.0     77     J      60000   DoCoMo    2000 
         10   F     152.0     43.0      .     J      20000   au        3500 
      
                                    SAS システム                             2
                                                14:49 Wednesday, June 30, 2004
      Model: MODEL1  
      Dependent Variable: TAIJYUU                                            
                                Analysis of Variance
      
                                Sum of         Mean
       Source          DF      Squares       Square      F Value       Prob>F
      
       Model            1  10789.17582  10789.17582      252.411       0.0001
       Error          251  10728.86228     42.74447
       C Total        252  21518.03810
      
           Root MSE       6.53793     R-square       0.5014
           Dep Mean      58.72530     Adj R-sq       0.4994
           C.V.          11.13307
      
                                    SAS システム                             3
                                                14:49 Wednesday, June 30, 2004
      
                                Parameter Estimates
                         Parameter      Standard    T for H0:               
        Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
      
        INTERCEP   1    -78.584367    8.65241903        -9.082        0.0001
        SHINTYOU   1      0.814033    0.05123749        15.887        0.0001
      
                                    SAS システム                             4
                                                14:49 Wednesday, June 30, 2004
                 S
                 H      T               K  C
                 I      A       J       O  A           T                 R
                 N      I    K  I       D  R           S       P         E
                 T      J    Y  T       U  R           U       R         S
        O   S    Y      Y    O  A       K  Y           U       E         I
        B   E    O      U    U  K       A  E           W       D         D
        S   X    U      U    I  U       I  R           A       1         1
      
         1  F  145.0  38.0   .  J   10000                .  39.4504   -1.4504
         2  F  148.0  42.0   .  J   50000                .  41.8925    0.1075
         3  F  148.0  43.0  80  J   50000  DoCoMo     4000  41.8925    1.1075
         4  F  148.9    .    .  J   60000                .  42.6251     .    
         5  F  149.0  45.0   .  G   60000                .  42.7065    2.2935
         6  F  150.0  46.0  86      40000                .  43.5206    2.4794
         7  F  151.0  50.0   .  G   60000  J-PHONE       .  44.3346    5.6654
         8  F  151.7  41.5  80  J   35000                .  44.9044   -3.4044
         9  F  152.0  35.0  77  J   60000  DoCoMo     2000  45.1486  -10.1486
        10  F  152.0  43.0   .  J   20000  au         3500  45.1486   -2.1486
        11  F  153.0  41.0   .  J  125000  No            .  45.9627   -4.9627
        12  F  153.0  42.0   .  G       0  Vodafone   1000  45.9627   -3.9627
        13  F  153.0  46.5  87  G   10000                .  45.9627    0.5373
        14  F  153.0  50.0   .  G   70000  DoCoMo    10000  45.9627    4.0373
        15  F  153.0  55.0  78  J   30000                .  45.9627    9.0373
      
                                    SAS システム                             6
                                                14:49 Wednesday, June 30, 2004
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
               (NOTE: 40 オブザベーションが欠損値です.)
      TAIJYUU |
          100 +                                               A
              |                                    A              A
           80 +                               A   A     A A B A        A
              |                               A B CBDDC DCEAD CCF B  AA
           60 +                 A  AA   D B CABBF HBOHKBIFFDC BADBB A
              |            AAA  CABDA CCH F EBCGF DAAAB  BA
           40 +       A   B   C BA BA
              |
           20 +
              |
              --+-----------+-----------+-----------+-----------+-----------+-
               140         150         160         170         180         190
                                          SHINTYOU
      
                                    SAS システム                             7
                                                14:49 Wednesday, June 30, 2004
             プロット : PRED1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                 (NOTE: 40 オブザベーションが欠損値です.)
             80 +
                |
          PRED1 |                             A   B        A
                |                         A ADAAFAB F B  A       A     A
                |                       ABBBBLFDDBGBA A BB
             60 +                      BEBJHGGJBGBAADABA        A
                |                   AF EHCF BCAAD        A
                |                  BBDCCEAC AAA
                |                BAABBACA  A  A
                |            A   CAAB  B  A
             40 +              A AA
                ---+------------+------------+------------+------------+--
                  20           40           60           80           100
                                          TAIJYUU
      
                                    SAS システム                             8
                                                14:49 Wednesday, June 30, 2004
             プロット : RESID1*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
             (NOTE: 40 オブザベーションが欠損値です.)
            |
      R  50 +
      e     |
      s     |                                     A        A
      i  25 +                                 A
      d     |                        A           B A  A AAA   A
      u     |                   A A   A  A BBAB BBBCDCDAA  BA A   A
      a   0 +-------------A--BAA-BCBCDABBI-DEBCCGHBMHHHGHBEBBHA-AA------------
      l     |                    AA  BAA C BA AGDDACCEBBCE BBACA
            |                                                A
        -25 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              30          40          50          60          70          80
                                Predicted Value of TAIJYUU
      
                                    SAS システム                             9
                                                14:49 Wednesday, June 30, 2004
            プロット : RESID1*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
             (NOTE: 40 オブザベーションが欠損値です.)
            |
      R  50 +
      e     |
      s     |                                     A          A
      i  25 +                                A
      d     |                     A              B A   A A B     A
      u     |               A  A   A   A B BAB B BBCDC CBA   BA  A    A
      a   0 +--------A---BAA-B-DBBDA-BBI-D-EBCCG-HBMFIAHGHBE-BBH-A--AA--------
      l     |                A A  BA AAB B A AFE DACCDABBCCB BABAB A
            |                                                   A
        -25 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              140         150         160         170         180         190
                                         SHINTYOU
      
                                    SAS システム                            10
                                                14:49 Wednesday, June 30, 2004
            プロット : RESID1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                 (NOTE: 40 オブザベーションが欠損値です.)
                |
          R  50 +
          e     |
          s     |                                               A      A
          i  25 +                                        A
          d     |                             A       BABB       A
          u     |                      A  AAABBAIBCCFAC  A A
          a   0 +--------------A-CBBDDDKIDMGISOFKCI-E---------------------
          l     |            A   CABCH CKDHCCFCAA
                |                         A
            -25 +
                ---+------------+------------+------------+------------+--
                  20           40           60           80           100
                                          TAIJYUU
      
                                    SAS システム                            11
                                                14:49 Wednesday, June 30, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
      
                                      Moments
      
                      N               253  Sum Wgts        253
                      Mean              0  Sum               0
                      Std Dev    6.524941  Variance   42.57485
                      Skewness   1.414355  Kurtosis    4.06384
                      USS        10728.86  CSS        10728.86
                      CV                .  Std Mean    0.41022
                      T:Mean=0          0  Pr>|T|       1.0000
                      Num ^= 0        253  Num > 0         110
                      M(Sign)       -16.5  Pr>=|M|      0.0440
                      Sgn Rank    -1902.5  Pr>=|S|      0.1026
                      W:Normal   0.921391  Pr< W        0.0001
      
                                    SAS システム                            12
                                                14:49 Wednesday, June 30, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
      
                                  Quantiles(Def=5)
      
                       100% Max   33.6865       99%  22.26893
                        75% Q3   2.756665       95%   11.6865
                        50% Med  -1.17317       90%  8.268929
                        25% Q1   -4.01173       10%  -7.08019
                         0% Min  -13.3486        5%   -8.7556
                                                 1%  -10.6153
                       Range     47.03508                    
                       Q3-Q1     6.768395                    
                       Mode      -2.24333                    
      
                                    SAS システム                            13
                                                14:49 Wednesday, June 30, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
      
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                       -13.3486(     274) 16.82683(     137)
                       -10.8714(     226) 20.43037(     280)
                       -10.6153(     169) 22.26893(      98)
                       -10.1486(       9) 29.26859(     146)
                       -9.56963(     277)  33.6865(     258)
      
                              Missing Value         .
                              Count                40
                              % Count/Nobs      13.65
      
                                    SAS システム                            15
                                                14:49 Wednesday, June 30, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
                                Histogram                         #    Boxplot
           35+*                                                   1       *   
             .*                                                   3       0   
             .*****                                              13       0   
             .*******************************                    93    +--+--+
             .***********************************************   139    *-----*
          -15+**                                                  4       |   
              ----+----+----+----+----+----+----+----+----+--              
              * may represent up to 3 counts                               
      
                                    SAS システム                            16
                                                14:49 Wednesday, June 30, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
                                   Normal Probability Plot              
                  35+                                                  *
                    |                                               ** *
                    |                                        *******++++
                    |                         ++**************          
                    |    ************************                       
                 -15+*+**++++++                                         
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方
      • 説明変量が予測に役立っているか?
        • 回帰に役立っているか : Prob>F : 小さいと有意(役立っている)
          [この例] 1% 未満(0.01%) なので役に立っていると言える。
      • 決定係数 : R-Square ( 相関係数 : R )
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。
          [この例] 50% 程(半分, 50.1)を説明できている。
      • 回帰係数 : Parameter Estimate
        [この例] a=0.814, b=-78.6
      • 説明変数が予測に役立っているか?
        回帰係数の検定(係数=0 か?) : Prob>|T| : 小さいと有意(ゼロではないと言える)
        [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか?
        • ...
        [この例] 残差には概ね傾向は見られない。ただし体重の大きい 3例程度は要確認。場合によっては外れ値として除外も。 ===> [演習](第4節)

      [注意] 誤差は「説明変量」の軸と垂直に取ることに注意せよ。 誤差は測定時に混入していると考えてモデルが構築されているから。

  2. 重回帰分析 : 2変量以上の説明する変量(説明変量)で 1変量(目的変量)を説明

    1. プログラム : les1102.sas

       /* Lesson 11-2 */
       /*    File Name = les1102.sas   07/01/04   */
      
      data gakusei;
        infile 'all04a.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc reg data=gakusei;                                  : 回帰分析
        model taijyuu=shintyou kyoui;                         : 複数変量を指定
        output out=outreg1 predicted=pred1 residual=resid1;   : 結果項目の保存
      run;                                                    :
      
      proc print data=outreg1(obs=15);
      run;
                                                       :
      proc plot data=outreg1;                          : 散布図を描く
        where shintyou^=. and taijyuu^=. and kyoui^=.; : 解析に使ったデータのみ
        plot taijyuu*shintyou;                         :
        plot taijyuu*kyoui;                            :
        plot taijyuu*pred1;                            : 観測値と予測値
        plot resid1*pred1   /vref=0;                   : 残差と予測値(残差解析)
        plot resid1*shintyou/vref=0;                   : 残差と説明変量(残差解析)
        plot resid1*kyoui   /vref=0;                   : 残差と説明変量(残差解析)
        plot resid1*taijyuu /vref=0;                   : 残差と目的変量(残差解析)
      run;                                             :
                                                       :
      proc univariate data=outreg1 plot normal;        : 残差を正規プロットして確かめる
        var resid1;                                    :
      run;                                             :
      
    2. 出力結果 : les1102.lst
                                    SAS システム                             2
                                                19:47 Wednesday, June 23, 2004
      Model: MODEL1  
      Dependent Variable: TAIJYUU                                            
      
                                Analysis of Variance
      
                                Sum of         Mean
       Source          DF      Squares       Square      F Value       Prob>F
      
       Model            2   7682.00845   3841.00423      102.149       0.0001
       Error           90   3384.18983     37.60211
       C Total         92  11066.19828
      
           Root MSE       6.13206     R-square       0.6942
           Dep Mean      59.19570     Adj R-sq       0.6874
           C.V.          10.35896
      
                                    SAS システム                             3
                                                19:47 Wednesday, June 23, 2004
      
                                Parameter Estimates
      
                         Parameter      Standard    T for H0:               
        Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
      
        INTERCEP   1   -109.642478   12.60968451        -8.695        0.0001
        SHINTYOU   1      0.672459    0.08035699         8.368        0.0001
        KYOUI      1      0.646057    0.08814219         7.330        0.0001
      
                                    SAS システム                             4
                                                19:47 Wednesday, June 23, 2004
                 S
                 H      T               K  C
                 I      A       J       O  A           T                 R
                 N      I    K  I       D  R           S       P         E
                 T      J    Y  T       U  R           U       R         S
        O   S    Y      Y    O  A       K  Y           U       E         I
        B   E    O      U    U  K       A  E           W       D         D
        S   X    U      U    I  U       I  R           A       1         1
      
         1  F  145.0  38.0   .  J   10000                .    .         .    
         2  F  148.0  42.0   .  J   50000                .    .         .    
         3  F  148.0  43.0  80  J   50000  DoCoMo     4000  41.5660    1.4340
         4  F  148.9    .    .  J   60000                .    .         .    
         5  F  149.0  45.0   .  G   60000                .    .         .    
         6  F  150.0  46.0  86      40000                .  46.7873   -0.7873
         7  F  151.0  50.0   .  G   60000  J-PHONE       .    .         .    
         8  F  151.7  41.5  80  J   35000                .  44.0541   -2.5541
         9  F  152.0  35.0  77  J   60000  DoCoMo     2000  42.3177   -7.3177
        10  F  152.0  43.0   .  J   20000  au         3500    .         .    
        11  F  153.0  41.0   .  J  125000  No            .    .         .    
        12  F  153.0  42.0   .  G       0  Vodafone   1000    .         .    
        13  F  153.0  46.5  87  G   10000                .  49.4507   -2.9507
        14  F  153.0  50.0   .  G   70000  DoCoMo    10000    .         .    
        15  F  153.0  55.0  78  J   30000                .  43.6362   11.3638
      
                                    SAS システム                             6
                                                19:47 Wednesday, June 23, 2004
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
          100 +                                               A
              |                                    A              A
      TAIJYUU |                                           A A A
              |                                 B BABAB AAAAA A B A  AA
              |                 A  A    A A B  BA BAFBC ABA    ABBA
           50 +             A   A ACA ABD C BBACB A
              |           A   B  A A
              |
              |
              |
            0 +
              --+-----------+-----------+-----------+-----------+-----------+-
               140         150         160         170         180         190
                                          SHINTYOU
      
                                    SAS システム                             7
                                                19:47 Wednesday, June 23, 2004
             プロット : TAIJYUU*KYOUI.  凡例: A = 1 OBS, B = 2 OBS, ...
           100 +                                                    A
               |                                     A    A
       TAIJYUU |                                      AA          A
               |                            A C BBF BAAA  A  A
               |                  A   A B C AAC FBI  AAA  A
            50 +       A          A   AA  B HCFBBA
               |                      A A B   A
               |
               |
               |
             0 +
               ---+-------+-------+-------+-------+-------+-------+-------+--
                 50      60      70      80      90      100     110     120
                                            KYOUI
      
                                    SAS システム                             8
                                                19:47 Wednesday, June 23, 2004
             プロット : TAIJYUU*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
          100 +                                                     A
              |                                    A           A
      TAIJYUU |                                        A A         A
              |                             A A CBBBB AA CB  A
              |               A     B AA B AABB BFDABB AB
           50 +           B      BBBC DBCDB B
              |             BAA     A
              |
              |
              |
            0 +
              --+---------+---------+---------+---------+---------+---------+-
               30        40        50        60        70        80        90
                                 Predicted Value of TAIJYUU
      
                                    SAS システム                             9
                                                19:47 Wednesday, June 23, 2004
             プロット : RESID1*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |                                     A
      i  20 +                                                      A
      d     |            A   A                  A             A
      u     |            A         B AA B  A A BABA   A A
      a   0 +--------------AAA--BBBB-CAAAAAABB-BDCAB-AA-BB--------A-----------
      l     |              A       B AABCA B   ABAABB ABA   A
            |
        -20 +
            ---+---------+---------+---------+---------+---------+---------+--
              30        40        50        60        70        80        90
                                Predicted Value of TAIJYUU
      
                                    SAS システム                            10
                                                19:47 Wednesday, June 23, 2004
            プロット : RESID1*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |                                     A
      i  20 +                                                A
      d     |                  A                 A A             A
      u     |                     B    A   A     BBBAB  AAAA
      a   0 +------------A-A-A-AAABA-AAC-B-BAABB-A-CAB-BAB-A-B-B-A--A---------
      l     |                A    A   AA B AA CC A BAA  A     ABBA   A
            |
        -20 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              140         150         160         170         180         190
                                         SHINTYOU
      
                                    SAS システム                            11
                                                19:47 Wednesday, June 23, 2004
             プロット : RESID1*KYOUI.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |                                        A
      i  20 +                                                        A
      d     |     A                   A          A        A
      u     |                  B    A A A  A B ABD    B
      a   0 +-----------------------B---D-BCDGCCAG-A-AB---B--------A----------
      l     |                       AA  B CA FABBC  AAB       A
            |
        -20 +
            -+--------+--------+--------+--------+--------+--------+--------+-
            50       60       70       80       90       100      110      120
                                           KYOUI
      
                                    SAS システム                            12
                                                19:47 Wednesday, June 23, 2004
            プロット : RESID1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                |
          R  40 +
          e     |
          s     |                                               A
          i  20 +                                                      A
          d     |                        AA           A          A
          u     |                    A    B AAB B ABBA  AA
          a   0 +----------------AAABCBDCAB-AEDBDAA-D----A----------------
          l     |            A   A  BDABB B AEAAC A
                |
            -20 +
                ---+------------+------------+------------+------------+--
                  20           40           60           80           100
                                          TAIJYUU
      
                                    SAS システム                            17
                                                19:47 Wednesday, June 23, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
          Stem Leaf                                    #             Boxplot
             2 4                                       1                *   
             1 8                                       1                0   
             1 01134                                   5                0   
             0 5556777778888                          13                |   
             0 0000111111233444                       16             +--+--+
            -0 44433333333333332222222221111111000    35             *-----*
            -0 998777776666666555555                  21                |   
            -1 0                                       1                |   
               ----+----+----+----+----+----+----+              
           Multiply Stem.Leaf by 10**+1                         
      
                                    SAS システム                            18
                                                19:47 Wednesday, June 23, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
                                   Normal Probability Plot              
                22.5+                                                  *
                    |                                              *   +
                    |                                         *+**+++++ 
                    |                                 ********+         
                    |                         +++******                 
                    |                 ************                      
                    |*   * ** *+*******                                 
               -12.5+ ++++++++                                          
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方
      • 対象になったのは 87名。
      • 説明変量群が予測に役立っているか?
        • 回帰に役立っているか : Prob>F : 小さいと有意
        • 「役立っている」と言える : 0.01% だから 1% で有意
      • 決定係数 : R-Square ( 相関係数 : R )
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。: 69.4%
        • 説明変量数が増えると大きくなるのが一般的。
      • 回帰係数 : Parameter Estimate
        • 回帰式: a=0.672, b=0.646, c=-109.6
      • ある特定の説明変量が予測に役立っているか?
        • 回帰係数の検定(帰無仮説:係数=0 か?) : Prob>|T| : 小さいと有意
        • 両方とも(身長も胸囲も)有意
        • 「各係数は 0ではない」と言える : 0.01% だから 1% で有意
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか? : もし傾向があると言うことになれば正規性の仮定が崩れている
        • 体重の大きい 3例程度が外れ値と考えられるか要確認 ===> [演習](第4節)
        • ...
      • ...

  3. 特定グループでの解析

    1. プログラム : les1103.sas

       /* Lesson 11-3 */
       /*    File Name = les1103.sas   07/01/04   */
      
      data gakusei;
        infile 'all04a.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;                    : 性別不明は除外
      if shintyou=. | taijyuu=. | kyoui=. then delete;       : 欠損のあるデータは除外
      
      proc print data=gakusei(obs=10);
      run;
      
      proc corr data=gakusei;                                : 相関係数
        where sex='M';                                       : 男性について
      run;                                                   :
                                                             :
      proc reg data=gakusei;                                 : 回帰分析
        model taijyuu=shintyou kyoui;                        :
        where sex='M';                                       : 男性について
        output out=outreg1 predicted=pred1 residual=resid1;  :
      run;                                                   :
      
      proc print data=outreg1(obs=15);
      run;
      
      proc plot data=outreg1;
        where sex='M';                                       : 対象データについて
        plot taijyuu*shintyou;
        plot taijyuu*kyoui;
        plot taijyuu*pred1;
        plot resid1*(pred1 shintyou kyoui taijyuu)/vref=0;          : まとめて記述
      /*
        plot resid1*pred1   /vref=0;
        plot resid1*shintyou/vref=0;
        plot resid1*kyoui   /vref=0;
        plot resid1*taijyuu /vref=0;
      */
      run;
      
      proc univariate data=outreg1 plot normal;
        var resid1;
      run;
      
    2. 出力結果 : les1103.lst
                                    SAS システム                             2
                                                  14:53 Tuesday, June 29, 2004
                                Correlation Analysis
            5 'VAR' Variables:  SHINTYOU TAIJYUU  KYOUI    KODUKAI  TSUUWA  
      
                                 Simple Statistics
       
        Variable         N      Mean   Std Dev       Sum   Minimum   Maximum
      
        SHINTYOU        61     172.3    6.2101   10513.1     156.0     185.0
        TAIJYUU         61   64.6344    9.2524    3942.7   46.0000     100.0
        KYOUI           61   88.7049    8.6146    5411.0   56.0000     112.0
        KODUKAI         57   54491.2   57395.6   3106000         0    300000
        TSUUWA           5    8200.0    3271.1   41000.0    5000.0   13000.0
      
                                    SAS システム                             3
                                                  14:53 Tuesday, June 29, 2004
                                Correlation Analysis
      
           Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
           / Number of Observations  
      
                    SHINTYOU     TAIJYUU       KYOUI     KODUKAI      TSUUWA
      
        SHINTYOU     1.00000     0.42019     0.22042     0.11293    -0.19869
                      0.0         0.0007      0.0878      0.4029      0.7487
                          61          61          61          57           5
      
        TAIJYUU      0.42019     1.00000     0.66894    -0.08201     0.17683
                      0.0007      0.0         0.0001      0.5442      0.7760
                          61          61          61          57           5
      
        KYOUI        0.22042     0.66894     1.00000    -0.11888     0.14486
                      0.0878      0.0001      0.0         0.3785      0.8162
                          61          61          61          57           5
      
        KODUKAI      0.11293    -0.08201    -0.11888     1.00000    -0.58004
                      0.4029      0.5442      0.3785      0.0         0.3053
                          57          57          57          57           5
      
        TSUUWA      -0.19869     0.17683     0.14486    -0.58004     1.00000
                      0.7487      0.7760      0.8162      0.3053      0.0   
                           5           5           5           5           5
      
                                    SAS システム                             6
                                                  14:53 Tuesday, June 29, 2004
      Model: MODEL1  
      Dependent Variable: TAIJYUU                                            
                                Analysis of Variance
      
                                Sum of         Mean
       Source          DF      Squares       Square      F Value       Prob>F
      
       Model            2   2700.06291   1350.03146       32.138       0.0001
       Error           58   2436.39479     42.00681
       C Total         60   5136.45770
      
           Root MSE       6.48127     R-square       0.5257
           Dep Mean      64.63443     Adj R-sq       0.5093
           C.V.          10.02758
      
                                    SAS システム                             7
                                                  14:53 Tuesday, June 29, 2004
                                Parameter Estimates
      
                         Parameter      Standard    T for H0:               
        Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
      
        INTERCEP   1    -66.687175   23.51117249        -2.836        0.0063
        SHINTYOU   1      0.427106    0.13813439         3.092        0.0031
        KYOUI      1      0.650603    0.09957815         6.534        0.0001
      
                                    SAS システム                            10
                                                  14:53 Tuesday, June 29, 2004
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
      TAIJYUU |
          100 +                                               A
              |                              A                        A
              |
           75 +                               A   A A   A  A  AA
              |                         B B A C A A   A A A A     D   A   A A
              |   A           A A     B A B A D B C A AAA       A  AA A
           50 +           A     B         A
              |
              |
           25 +
              --+---------+---------+---------+---------+---------+---------+-
               155       160       165       170       175       180       185
                                          SHINTYOU
      
                                    SAS システム                            11
                                                  14:53 Tuesday, June 29, 2004
             プロット : TAIJYUU*KYOUI.  凡例: A = 1 OBS, B = 2 OBS, ...
       TAIJYUU |
           100 +                                                    A
               |                                     A    A
               |
            75 +                                 AA   BA  A       A
               |                            A C BAH BA B     A
               |                  A   A A C AAC EBE  AA   A
            50 +       A               A  A A
               |
               |
            25 +
               ---+-------+-------+-------+-------+-------+-------+-------+--
                 50      60      70      80      90      100     110     120
                                            KYOUI
      
                                    SAS システム                            12
                                                  14:53 Tuesday, June 29, 2004
             プロット : TAIJYUU*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
      TAIJYUU |
          100 +                                                    A
              |                                 A          A
              |
           75 +                              AA     AAAA         A
              |                         AA A DABACC A AB
              |               A AA   AAAAAABBDDB BA
           50 +   A          A    A A
              |
              |
           25 +
              --+-----------+-----------+-----------+-----------+-----------+-
               40          50          60          70          80          90
                                 Predicted Value of TAIJYUU
      
                                    SAS システム                            13
                                                  14:53 Tuesday, June 29, 2004
             プロット : RESID1*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                                  A                  A
      d     |    A                                        A
      u     |                A A    A  AA A CBA    AA
      a   0 +---------------A---A----A-AAAAABBAAC--A-BA---------A-------------
      l     |                    A A  A   AADBB BD    B
            |
        -20 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              40          50          60          70          80          90
                                Predicted Value of TAIJYUU
      
                                    SAS システム                            14
                                                  14:53 Tuesday, June 29, 2004
            プロット : RESID1*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                               A                A
      d     |                            A                           A
      u     |                  A         B A C A B   A A AA
      a   0 +----A-------A-----------A-B---A-B-A-A-A--AB---A-AA--B-A-A---A----
      l     |                A B     A A B   C A B A A         A BA  A     A
            |
        -20 +
            ---+---------+---------+---------+---------+---------+---------+--
              155       160       165       170       175       180       185
                                         SHINTYOU
      
                                    SAS システム                            15
                                                  14:53 Tuesday, June 29, 2004
             プロット : RESID1*KYOUI.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                                        A               A
      d     |     A                                       A
      u     |                  A      A A  A B  BD    B
      a   0 +-----------------------B---B---ABABAE-A-AB---A--------A----------
      l     |                           A B  BBBAE  AAB   A   A
            |
        -20 +
            -+--------+--------+--------+--------+--------+--------+--------+-
            50       60       70       80       90       100      110      120
                                           KYOUI
      
                                    SAS システム                            16
                                                  14:53 Tuesday, June 29, 2004
            プロット : RESID1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                                                   A          A
      d     |                A                                   A
      u     |                 A    A A  B A AC A A  AA
      a   0 +----------A-------A---DACA-DA-A-BB------A------------------------
      l     |        A    A   BA B FABABA  A
            |
        -20 +
            ---+---------+---------+---------+---------+---------+---------+--
              40        50        60        70        80        90        100
                                          TAIJYUU
      
                                    SAS システム                            17
                                                  14:53 Tuesday, June 29, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
      
                                      Moments
      
                      N                61  Sum Wgts         61
                      Mean              0  Sum               0
                      Std Dev    6.372329  Variance   40.60658
                      Skewness   1.224565  Kurtosis   1.785444
                      USS        2436.395  CSS        2436.395
                      CV                .  Std Mean   0.815893
                      T:Mean=0          0  Pr>|T|       1.0000
                      Num ^= 0         61  Num > 0          24
                      M(Sign)        -6.5  Pr>=|M|      0.1237
                      Sgn Rank     -115.5  Pr>=|S|      0.4113
                      W:Normal   0.909005  Pr< W        0.0001
      
                                    SAS システム                            20
                                                  14:53 Tuesday, June 29, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
                  Stem Leaf                     #             Boxplot
                     2 2                        1                0   
                     1 8                        1                0   
                     1 024                      3                |   
                     0 5555566777              10                |   
                     0 001123444                9             +--+--+
                    -0 44443333322211111100    20             *-----*
                    -0 99888766655555555       17             +-----+
                       ----+----+----+----+              
                   Multiply Stem.Leaf by 10**+1          
      
                                    SAS システム                            21
                                                  14:53 Tuesday, June 29, 2004
                                Univariate Procedure
      Variable=RESID1        Residual
                                   Normal Probability Plot              
                22.5+                                                *  
                    |                                            *    ++
                    |                                         **++++++  
                 7.5+                                 ++*****+          
                    |                         +++*******                
                    |                 ***********                       
                -7.5+  *   * **+*******                                 
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方
      • 単変量毎の相関が有意なのは、身長と体重、体重と胸囲の間。

      • 対象になったのは 61名。
      • 回帰に役立っているか : 役立っている : 0.01% だから 1% で有意
      • 決定係数(R-square)は 0.526
      • 個々の説明変量が予測に役立っているか?
        • 係数がゼロか? : 定数項も身長も胸囲も有意(1% で有意)
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 均等に散らばっているか?
        • 傾向はないか? : 傾向があると言うことは正規性の仮定が崩れていること
        • 外れ値? 85Kg より重い 3名程度が吟味対象?

  4. [演習] : 「男性のみ」で、かつ「体重の大きい 3名を除外」して実行してみよ。

  5. [要点] 解析する上での注意点を幾つか列挙しておく

  6. 有効桁数に注意せよ : どこまでが「意味ある桁」か?
    測定精度上回る計算結果は出せない。
    [重要な注意] 統計ソフトは単なる道具。使いこなすのは各自。
     [例1] 大学入試センター : 志願者数 58.7万人、受験者数 54.0万人。
     [例2] 日本の観測史上の 最高気温は、1933(昭和8)年7月25日に山形市で観測された40.8度であり、 最低気温は、1902(明治35)年1月25日に北海道旭川市の-41度であった。
     [例3] 2001年のイチロー選手の打率は3割5分であった。

  7. 誤用  [例1] 人間の成長曲線
     [例2] 将来のプログラマ必要数予測 : 21世紀(?)の国民全員がプログラマ ('80s)
     [例3] オリンピック 100m 走の男女記録 : 2156年には女性の方が速い (2004.09.30) :
              Japan Journal LTD の記事 , Japan Journal LTD の記事 , 朝日新聞 の記事
         [究極の命題?] 100m に 0.0秒 要する(!?)ようになるのは何時?

  8. 4つの尺度と回帰分析

  9. 回帰分析における変数選択 :
     回帰分析では回帰係数や重相関係数を知ることだけでなく 残差解析も重要であることを強調したつもりである。 次に説明変数の取捨選択(変数選択)について説明する。

    1. プログラム : les1201.sas

       /* Lesson 12-1 */
       /*    File Name = les1201.sas   06/26/03   */
      
      data air;
        infile 'usair2.prn';
        input id $ y x1 x2 x3 x4 x5 x6;
      /*
        label id='Cities (都市名)'
               y='SO2 of air in micrograms per cubic metre (SO2 濃度)'
              x1='Average annual temperature in F (気温)'
              x2='Number of manufacturing enterprises employing 20 or more workers (製造業数)'
              x3='Population size (1970 census); in thousands (人口)'
              x4='Average annual wind speed in miles per hour (風速)'
              x5='Average annual precipitation in inches (降雨量)'
              x6='Average number of days with precipitation per year (降雨日数)'
      ;
      */
      
      proc print data=air(obs=10);
      run;
      
      proc corr data=air;
      run;
      
      proc reg data=air;                                     :
        model y=x1 x2 x3 x4 x5 x6;                           : フルモデル
        output out=outreg1 predicted=pred1 residual=resid1;  :
      run;                                                   :
      
      proc print data=outreg1(obs=15);
      run;
      
      proc plot data=outreg1;                                : 残差解析用
        plot resid1*pred1 /vref=0;                           :
        plot resid1*x1    /vref=0;                           : ズラズラと列記
        plot resid1*x2    /vref=0;                           :
        plot resid1*x3    /vref=0;                           :
        plot resid1*x4    /vref=0;                           :
        plot resid1*x5    /vref=0;                           :
        plot resid1*x6    /vref=0;                           :
        plot resid1*y     /vref=0;                           :
      run;                                                   :
      
      proc univariate data=outreg1 plot normal;              : 残差解析
        var resid1;                                          :
      run;                                                   :
      
      proc reg data=air;                                     :
        model y=x1--x6 / selection=stepwise;                 : 逐次増減法
        output out=outreg2 predicted=pred2 residual=resid2;  : 連続した変数の指定方法(簡略形)
      run;                                                   :
      
      proc print data=outreg2(obs=15);
      run;
      
      proc plot data=outreg2;                                : 残差解析用
        plot resid2*pred2               /vref=0;             :
      /*                                                     :
        plot resid2*(x1 x2 x3 x4 x5 x6) /vref=0;             : 簡略形(上と比較せよ)
      */                                                     :
        plot resid2*(x1--x6)            /vref=0;             : 簡略形(これも同じ意味)
        plot resid2*y                   /vref=0;             :
      run;                                                   :
      
      proc univariate data=outreg2 plot normal;              : 残差解析
        var resid2;                                          :
      run;                                                   : 
      
    2. SAS の簡略表記法 : ズラズラと書くのは面倒だから
      • 変数名が連続形式になってた場合の指定 : x1--x6
      • plot をまとめて指定 : plot resid1*(x1--x6);

    3. 出力結果 : les1201.lst
      
                                       SAS システム                                 1
                                                    08:33 Thursday, December 18, 2003
      
            OBS    ID           Y     X1      X2     X3     X4      X5      X6
      
              1    Phoenix     10    70.3    213    582    6.0     7.05     36
              2    Little_R    13    61.0     91    132    8.2    48.52    100
              3    San_Fran    12    56.7    453    716    8.7    20.66     67
              4    Denver      17    51.9    454    515    9.0    12.95     86
              5    Hartford    56    49.1    412    158    9.0    43.37    127
              6    Wilmingt    36    54.0     80     80    9.0    40.25    114
              7    Washingt    29    57.3    434    757    9.3    38.89    111
              8    Jacksonv    14    68.4    136    529    8.8    54.47    116
              9    Miami       10    75.5    207    335    9.0    59.80    128
             10    Atlanta     24    61.5    368    497    9.1    48.34    115
      
                                       SAS システム                                 2
                                                    08:33 Thursday, December 18, 2003
                                   Correlation Analysis
      
         7 'VAR' Variables:  Y        X1       X2       X3       X4       X5      
                             X6      
      
                                    Simple Statistics
       
        Variable          N       Mean    Std Dev        Sum    Minimum    Maximum
      
        Y                41    30.0488    23.4723       1232     8.0000   110.0000
        X1               41    55.7634     7.2277       2286    43.5000    75.5000
        X2               41   463.0976   563.4739      18987    35.0000       3344
        X3               41   608.6098   579.1130      24953    71.0000       3369
        X4               41     9.4439     1.4286   387.2000     6.0000    12.7000
        X5               41    36.7690    11.7715       1508     7.0500    59.8000
        X6               41   113.9024    26.5064       4670    36.0000   166.0000
      
                                       SAS システム                                 3
                                                    08:33 Thursday, December 18, 2003
                                   Correlation Analysis
      
         Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 41  
      
                  Y         X1         X2         X3         X4         X5         X6
      
      Y     1.00000   -0.43360    0.64477    0.49378    0.09469    0.05429    0.36956
             0.0        0.0046     0.0001     0.0010     0.5559     0.7360     0.0174
      
      X1   -0.43360    1.00000   -0.19004   -0.06268   -0.34974    0.38625   -0.43024
             0.0046     0.0        0.2340     0.6970     0.0250     0.0126     0.0050
      
      X2    0.64477   -0.19004    1.00000    0.95527    0.23795   -0.03242    0.13183
             0.0001     0.2340     0.0        0.0001     0.1341     0.8405     0.4113
      
      X3    0.49378   -0.06268    0.95527    1.00000    0.21264   -0.02612    0.04208
             0.0010     0.6970     0.0001     0.0        0.1819     0.8712     0.7939
      
      X4    0.09469   -0.34974    0.23795    0.21264    1.00000   -0.01299    0.16411
             0.5559     0.0250     0.1341     0.1819     0.0        0.9357     0.3052
      
      X5    0.05429    0.38625   -0.03242   -0.02612   -0.01299    1.00000    0.49610
             0.7360     0.0126     0.8405     0.8712     0.9357     0.0        0.0010
      
      X6    0.36956   -0.43024    0.13183    0.04208    0.16411    0.49610    1.00000
             0.0174     0.0050     0.4113     0.7939     0.3052     0.0010     0.0   
      
                                       SAS システム                                 5
                                                    08:33 Thursday, December 18, 2003
      Model: MODEL1  
      Dependent Variable: Y                                                  
                                   Analysis of Variance
      
                                      Sum of         Mean
             Source          DF      Squares       Square      F Value       Prob>F
      
             Model            6  14754.63603   2459.10601       11.480       0.0001
             Error           34   7283.26641    214.21372
             C Total         40  22037.90244
      
                 Root MSE      14.63604     R-square       0.6695
                 Dep Mean      30.04878     Adj R-sq       0.6112
                 C.V.          48.70761
      
                                       SAS システム                                 6
                                                    08:33 Thursday, December 18, 2003
                                    Parameter Estimates
      
                            Parameter      Standard    T for H0:               
           Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
      
           INTERCEP   1    111.728481   47.31810073         2.361        0.0241
           X1         1     -1.267941    0.62117952        -2.041        0.0491
           X2         1      0.064918    0.01574825         4.122        0.0002
           X3         1     -0.039277    0.01513274        -2.595        0.0138
           X4         1     -3.181366    1.81501910        -1.753        0.0887
           X5         1      0.512359    0.36275507         1.412        0.1669
           X6         1     -0.052050    0.16201386        -0.321        0.7500
      
                                       SAS システム                                 7
                                                    08:33 Thursday, December 18, 2003
      
        OBS  ID          Y   X1    X2    X3    X4     X5    X6     PRED1    RESID1
      
          1  Phoenix    10  70.3   213   582   6.0   7.05   36    -3.789   13.7891
          2  Little_R   13  61.0    91   132   8.2  48.52  100    28.675  -15.6745
          3  San_Fran   12  56.7   453   716   8.7  20.66   67    20.542   -8.5421
          4  Denver     17  51.9   454   515   9.0  12.95   86    28.694  -11.6941
          5  Hartford   56  49.1   412   158   9.0  43.37  127    56.991   -0.9915
          6  Wilmingt   36  54.0    80    80   9.0  40.25  114    31.367    4.6326
          7  Washingt   29  57.3   434   757   9.3  38.89  111    22.079    6.9212
      
                                       SAS システム                                15
                                                    08:33 Thursday, December 18, 2003
                   プロット : RESID1*Y.  凡例: A = 1 OBS, B = 2 OBS, ...
               |
         R  50 +                                                 A
         e     |
         s     |                                 A
         i  25 +
         d     |       A          A      AA
         u     |        AA      AA  A         A    A A
         a   0 +------AB------AAABA-A---------A--------------------------A-------
         l     |       CAA C   A
               |        ABA      A
           -25 +              A
               ---+---------+---------+---------+---------+---------+---------+--
                  0        20        40        60        80        100       120
                                                Y
      
                                       SAS システム                                19
                                                    08:33 Thursday, December 18, 2003
                                   Univariate Procedure
      Variable=RESID1        Residual
      
                     Stem Leaf                     #             Boxplot
                        4 9                        1                *   
                        3 0                        1                0   
                        2                                               
                        1 4457                     4                |   
                        0 23455567779             11             +--+--+
                       -0 97665433211100          14             *-----*
                       -1 986652211                9                |   
                       -2 3                        1                |   
                          ----+----+----+----+              
                      Multiply Stem.Leaf by 10**+1          
      
                                       SAS システム                                20
                                                    08:33 Thursday, December 18, 2003
                                   Univariate Procedure
      Variable=RESID1        Residual
                                      Normal Probability Plot              
                     45+                                               *   
                       |                                           *    +++
                       |                                        ++++++++   
                       |                                 +++**+**          
                       |                         ++*********               
                       |                  **********                       
                       |       *  **+******                                
                    -25+   *+++++++                                        
                        +----+----+----+----+----+----+----+----+----+----+
                            -2        -1         0        +1        +2     
      
                                       SAS システム                                21
                                                    08:33 Thursday, December 18, 2003
      
                    Stepwise Procedure for Dependent Variable Y       
      
      Step 1   Variable X2 Entered        R-square = 0.41572671   C(p) = 23.10893175
      
                      DF         Sum of Squares      Mean Square          F   Prob>F
      
      Regression       1          9161.74469120    9161.74469120      27.75   0.0001
      Error           39         12876.15774782     330.15789097
      Total           40         22037.90243902
      
                      Parameter        Standard          Type II
      Variable         Estimate           Error   Sum of Squares          F   Prob>F
      
      INTERCEP      17.61057438      3.69158676    7513.50474182      22.76   0.0001
      X2             0.02685872      0.00509867    9161.74469120      27.75   0.0001
      
      Bounds on condition number:            1,            1
      
                                       SAS システム                                22
                                                    08:33 Thursday, December 18, 2003
      
      -------------------------------------------------------------------------------
      
      Step 2   Variable X3 Entered        R-square = 0.58632019   C(p) =  7.55859687
      
                      DF         Sum of Squares      Mean Square          F   Prob>F
      
      Regression       2         12921.26717485    6460.63358743      26.93   0.0001
      Error           38          9116.63526417     239.91145432
      Total           40         22037.90243902
      
                      Parameter        Standard          Type II
      Variable         Estimate           Error   Sum of Squares          F   Prob>F
      
      INTERCEP      26.32508332      3.84043919   11272.71964000      46.99   0.0001
      X2             0.08243410      0.01469656    7548.02378137      31.46   0.0001
      X3            -0.05660660      0.01429968    3759.52248365      15.67   0.0003
      
                                       SAS システム                                23
                                                    08:33 Thursday, December 18, 2003
      
      Bounds on condition number:     11.43374,     45.73494
      -------------------------------------------------------------------------------
      
      Step 3   Variable X6 Entered        R-square = 0.61740155   C(p) =  6.36100514
      
                      DF         Sum of Squares      Mean Square          F   Prob>F
      
      Regression       3         13606.23518823    4535.41172941      19.90   0.0001
      Error           37          8431.66725079     227.88289867
      Total           40         22037.90243902
      
                      Parameter        Standard          Type II
      Variable         Estimate           Error   Sum of Squares          F   Prob>F
      
      INTERCEP       6.96584888     11.77690656      79.72552238       0.35   0.5578
      X2             0.07433399      0.01506613    5547.32153619      24.34   0.0001
      X3            -0.04939437      0.01454421    2628.36952166      11.53   0.0016
      X6             0.16435940      0.09480151     684.96801338       3.01   0.0913
      
      Bounds on condition number:     12.65025,     78.63322
      -------------------------------------------------------------------------------
      
      All variables left in the model are significant at the 0.1500 level.
      No other variable met the 0.1500 significance level for entry into the model.
      
               Summary of Stepwise Procedure for Dependent Variable Y       
      
             Variable        Number   Partial    Model
      Step   Entered Removed     In      R**2     R**2      C(p)          F   Prob>F
      
         1   X2                   1    0.4157   0.4157   23.1089    27.7496   0.0001
         2   X3                   2    0.1706   0.5863    7.5586    15.6705   0.0003
         3   X6                   3    0.0311   0.6174    6.3610     3.0058   0.0913
      
                                       SAS システム                                25
                                                    08:33 Thursday, December 18, 2003
      
        OBS  ID          Y   X1    X2    X3    X4     X5    X6     PRED2    RESID2
      
          1  Phoenix    10  70.3   213   582   6.0   7.05   36    -0.032   10.0316
          2  Little_R   13  61.0    91   132   8.2  48.52  100    23.646  -10.6461
          3  San_Fran   12  56.7   453   716   8.7  20.66   67    16.285   -4.2849
          4  Denver     17  51.9   454   515   9.0  12.95   86    29.410  -12.4103
          5  Hartford   56  49.1   412   158   9.0  43.37  127    50.661    5.3392
          6  Wilmingt   36  54.0    80    80   9.0  40.25  114    27.698    8.3020
          7  Washingt   29  57.3   434   757   9.3  38.89  111    20.079    8.9208
          8  Jacksonv   14  68.4   136   529   8.8  54.47  116    10.011    3.9887
          9  Miami      10  75.5   207   335   9.0  59.80  128    26.844  -16.8439
         10  Atlanta    24  61.5   368   497   9.1  48.34  115    28.673   -4.6731
         11  Chicago   110  50.6  3344  3369  10.4  34.44  122   109.181    0.8191
         12  Indianap   28  52.3   361   746   9.7  38.74  121    16.840   11.1603
         13  Des_Moin   17  49.0   104   201  11.2  30.85  103    21.697   -4.6973
         14  Wichita     8  56.6   125   277  12.7  30.58   82    16.053   -8.0528
         15  Louisvil   30  55.6   291   593   8.3  43.11  123    19.522   10.4776
      
                                       SAS システム                                33
                                                    08:33 Thursday, December 18, 2003
                   プロット : RESID2*Y.  凡例: A = 1 OBS, B = 2 OBS, ...
            50 +                                                 A
         R     |
         e     |                                 A
         s     |                         AA
         i     |       A        ABA A         A      A
         d   0 +--------BA-A--ABA-A-A---------A--------------------------A-------
         u     |      AC C B     A                 A
         a     |       B  A   A  A
         l     |        A
               |
           -50 +
               ---+---------+---------+---------+---------+---------+---------+--
                  0        20        40        60        80        100       120
                                                Y
      
                                       SAS システム                                37
                                                    08:33 Thursday, December 18, 2003
                                   Univariate Procedure
      Variable=RESID2        Residual
                     Stem Leaf                     #             Boxplot
                        5 0                        1                0   
                        4                                               
                        3 0                        1                |   
                        2 0                        1                |   
                        1 001349                   6                |   
                        0 011234455589            12             +--+--+
                       -0 8877755554              10             +-----+
                       -1 887764321                9                |   
                       -2 9                        1                |   
                          ----+----+----+----+              
                      Multiply Stem.Leaf by 10**+1          
      
                                       SAS システム                                38
                                                    08:33 Thursday, December 18, 2003
                                   Univariate Procedure
      Variable=RESID2        Residual
                                      Normal Probability Plot              
                     55+                                                   
                       |                                               *   
                       |                                              +++++
                       |                                       +*++*++     
                     15+                                +*****+*           
                       |                         ********                  
                       |                  *******                          
                       |       *  **+******                                
                    -25+   * +++++++                                       
                        +----+----+----+----+----+----+----+----+----+----+
                            -2        -1         0        +1        +2     
      

    4. 結果の見方
      • フルモデル : 指定した全変量をモデルに取り込む
      • 逐次変数選択法(stepwise)
        • 変数増減法 : 変数を逐次(1つずつ)追加/削除していく
        • 一度取り込まれても、組合わせによっては削除される
      • その他の選択法 :
        • 前進選択法(forward) : 空のモデルから 1変量ずつ追加していく
        • 後退選択法(backward) : フルモデルから 1変量ずつ削減していく
      • 「数値計算上の最適モデル」と「その分野の知識からの最適モデル」には違いがあることを知っておくこと
      • 残差解析はいつの場合でも必要
      • 決定係数 : R-Square : 1 に近いほど当てはまりが良いと言える
        説明変数が増えると大きくなるのが一般的
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 均等に散らばっているか?
        • 傾向はないか? : 傾向があると言うことは正規性の仮定が崩れていること
      • ...

  10. 総当たり法

    1. プログラム : les1202.sas

       /* Lesson 12-2 */
       /*    File Name = les1202.sas   01/08/04   */
      
      data air;
        infile 'usair2.prn';
        input id $ y x1 x2 x3 x4 x5 x6;
      
      proc print data=air(obs=10);
      run;
      
      proc corr data=air;
      run;
      
      proc reg data=air;                                     :
        model y=x1--x6 / selection=rsquare;                  : 総当り法
      run;                                                   :
      

    2. 出力結果 : les1202.lst
                                       SAS システム                                 5
                                                    08:33 Thursday, December 18, 2003
      
                          N = 41     Regression Models for Dependent Variable: Y     
                            
                        Number in     R-square   Variables in Model
                          Model                   
      
                              1     0.41572671   X2 
                              1     0.24381828   X3 
                              1     0.18800913   X1 
                              1     0.13657727   X6 
                              1     0.00896628   X4 
                              1     0.00294788   X5 
                         --------------------------
                              2     0.58632019   X2 X3 
                              2     0.51611499   X1 X2 
                              2     0.49813569   X2 X6 
                              2     0.42138706   X2 X5 
                              2     0.41938296   X2 X4 
                              2     0.40658556   X1 X3 
                    (中略)
                              2     0.01204980   X4 X5 
                         -----------------------------
                              3     0.61740155   X2 X3 X6 
                              3     0.61254683   X1 X2 X3 
                              3     0.59304760   X2 X3 X5 
                              3     0.59298732   X2 X3 X4 
                              3     0.56222293   X1 X2 X5 
                              3     0.54523587   X1 X2 X6 
                    (中略)
                              3     0.15899893   X4 X5 X6 
                         --------------------------------
                              4     0.63964257   X1 X2 X3 X5 
                              4     0.63287070   X1 X2 X3 X4 
                              4     0.62909408   X1 X2 X3 X6 
                              4     0.62847667   X2 X3 X4 X6 
                              4     0.61759495   X2 X3 X5 X6 
                              4     0.60282531   X1 X2 X4 X5 
                    (中略)
                              4     0.25499437   X1 X4 X5 X6 
                         -----------------------------------
                              5     0.66850854   X1 X2 X3 X4 X5 
                              5     0.65012088   X1 X2 X3 X4 X6 
                              5     0.63964824   X1 X2 X3 X5 X6 
                              5     0.62901313   X2 X3 X4 X5 X6 
                              5     0.60403117   X1 X2 X4 X5 X6 
                              5     0.50433666   X1 X3 X4 X5 X6 
                         --------------------------------------
                              6     0.66951181   X1 X2 X3 X4 X5 X6 
                         -----------------------------------------
      

    3. 結果の見方
      • 総当り法(rsquare)
        • 説明変数の組合わせ毎の決定係数(R^2)が表示される : 大きい順に
          • 決定係数 : R-Square : 1 に近いほど当てはまりが良いと言える
          • 説明変数が増えると大きくなるのが一般的
          • 興味のある組合わせを見つけ出して、このあと計算させる。残差解析も行うこと。
        • モデルの探索用
      • 「数値計算上の最適モデル」と「その分野の知識からの最適モデル」には違いがあることを知っておくこと。
      • ...

  11. 次回は、... : 11月05日
[DIR]講義のホームページへ戻ります