回帰分析(後編)

統計モデル解析特論I/II : 第04回 (10/23/18)

 今回は、回帰分析の後半である。

 ● 目次: 回帰分析 : 連続変量の予測
   1. 単回帰分析 : 予測等に使う、連続変量の関係 [第03回の資料へジャンプ]
   2. 「体重の大きい者を除外」して実行するには? [第03回の資料へジャンプ]
   3. 有効桁数に注意せよ : どこまでが「意味ある桁」か? [第03回の資料へジャンプ]
   4. 重回帰分析 : 2変量以上の説明する変量(説明変量)で 1変量(目的変量)を説明
   5. 特定グループでの解析
   6. [要点] 解析する上での注意点
   7. 4つの尺度と回帰分析
   8. 身近な統計の話題から
   9. 回帰分析における変数選択、総当たり法


  1. 重回帰分析 : 2変量以上の説明する変量(説明変量)で 1変量(目的変量)を説明
    • 説明変量が複数になる : 単 ===> 重
    • 体重を 身長と胸囲で説明したい。予測したい。
    • [体重]=a[身長]+b[胸囲]+c : 回帰係数を求めたい。
    • 単回帰とアイディアは同じ
      • 説明される変量(目的変量)と平行に残差を取る
      • 残差には正規分布が仮定されている
      • 残差の二乗和を最小にする(最小二乗法)

    1. プログラム : les0401.sas

       /* Lesson 04-1 */
       /*    File Name = les0401.sas   10/23/18   */
      options linesize=72 pagesize=20;
      options nocenter linesize=78 pagesize=30;
      
      proc printto log   = 'Kougi/les0401_log.txt'
                   print = 'Kougi/les0401_Results.txt' new;
      
      ods listing gpath='Kougi/SAS_ODS99';
      
      data gakusei;
        infile 'Kougi/all07au.txt'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      if shintyou=. | taijyuu=. then delete;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc reg data=gakusei;                                  : 回帰分析
        model taijyuu=shintyou kyoui;                         : 複数変量を指定
        output out=outreg1 predicted=pred1 residual=resid1;   : 結果項目の保存
      run;                                                    :
      
      proc print data=outreg1(obs=15);
      run;
                                                       :
      proc plot data=outreg1;                          : 散布図を描く
        where shintyou^=. and taijyuu^=. and kyoui^=.; : 解析に使ったデータのみ
        plot taijyuu*shintyou;                         :
        plot taijyuu*kyoui;                            :
        plot taijyuu*pred1;                            : 観測値と予測値
        plot resid1*pred1   /vref=0;                   : 残差と予測値(残差解析)
        plot resid1*shintyou/vref=0;                   : 残差と説明変量(残差解析)
        plot resid1*kyoui   /vref=0;                   : 残差と説明変量(残差解析)
        plot resid1*taijyuu /vref=0;                   : 残差と目的変量(残差解析)
      run;                                             :
                                                       :
      proc univariate data=outreg1 plot normal;        : 残差を正規プロットして確かめる
        var resid1;                                    :
      run;                                             :
      
    2. 出力結果 : les0401_Results.txt , les0401_out.pdf
                                     2018年10月22日 月曜日 08時39分18秒   2
      
      REG プロシジャ
      モデル : MODEL1
      従属変数 : taijyuu 
      
      読み込んだオブザベーション数            325
      使用されたオブザベーション数            114
      欠損値を含むオブザベーション数          211
      
                                      分散分析
      要因              自由度     平方和   平均平方     F 値   Pr > F
      
      Model                       2    8070.70705     4035.35353     85.10   <.0001
      Error                     111    5263.40733       47.41808                   
      Corrected Total           113         13334                                  
      
      Root MSE                     6.88608    R2 乗                  0.6053
      従属変数の平均              58.79298    調整済み R2 乗         0.5982
      変動係数                    11.71242                                  
      
                                     2018年10月22日 月曜日 08時39分18秒   3
      REG プロシジャ
      モデル : MODEL1
      従属変数 : taijyuu 
      
                               パラメータの推定
                              パラメータ
      変数      自由度         推定値   標準誤差     t 値   Pr > |t|
      
      Intercept           1        -106.30023       12.75197     -8.34     <.0001
      shintyou            1           0.80655        0.07854     10.27     <.0001
      kyoui               1           0.34947        0.08192      4.27     <.0001
      
                                     2018年10月22日 月曜日 08時39分24秒   4
      
      OBS sex shintyou taijyuu kyoui jitaku kodukai carryer  tsuuwa  pred1   resid1
      
        1  F    145.0    38.0     .    J      10000              .    .       .     
        2  F    146.7    41.0    85    J      10000 Vodafone  6000  41.7256 -0.72559
        3  F    148.0    42.0     .    J      50000              .    .       .     
        4  F    148.0    43.0    80    J      50000 DoCoMo    4000  41.0267  1.97328
        5  F    149.0    45.0     .    G      60000              .    .       .     
        6  F    150.0    46.0    86           40000              .  44.7367  1.26333
        7  F    151.0    45.0     .    J      20000 docomo    5000    .       .     
        8  F    151.0    50.0     .    G      60000 J-PHONE      .    .       .     
        9  F    151.7    41.5    80    J      35000              .  44.0109 -2.51095
       10  F    152.0    35.0    77    J      60000 DoCoMo    2000  43.2045 -8.20449
      
                                     2018年10月22日 月曜日 08時39分24秒   5
           プロット : taijyuu*shintyou   凡例 : A = 1 obs, B = 2 obs, ...
      
          100 +                                                  A
              |
              |                                                        A
              |                                       A
              |                                            A
              |                                                A A
           75 +                                        A      A
              |                                       A A BAA A   A A  A
              |                                    BB  A   A  BAAA  A    A A
      taijyuu |                      A       A      A  CA C AA      B
              |                           B   A  AAAA  C   AA AA A A A A
              |                  A    A   AA  A  BABA AAA            A
           50 +                     AC B CD  AAB  B
              |              A   A A B A A   BA   A
              |          AA    A     A
              |
              |                 A
              |
           25 +
              --+------------+------------+------------+------------+------------+--
               140          150          160          170          180          190
                                             shintyou
      
                                     2018年10月22日 月曜日 08時39分24秒   6
            プロット : taijyuu*kyoui   凡例 : A = 1 obs, B = 2 obs, ...
      
              100 +                                                    A
                  |
                  |                                            A
                  |                                        A
                  |      A
                  |                                         A         A
               75 +                                     A   A
                  |                                    BD  AB  A
                  |                              A A CAAAAB B     A
          taijyuu |                              A   A AGA  B  A
                  |                             BB  ADBDB  A
                  |             A         A   A AAA CC AB
               50 +                       A   A   DD G B
                  |                           B  DAA BA
                  |                              B   B
                  |
                  |                            A
                  |
               25 +
                  ---+-------------+-------------+-------------+-------------+--
                    40            60            80            100           120
                                               kyoui
      
                                     2018年10月22日 月曜日 08時39分24秒   9
           プロット : resid1*shintyou   凡例 : A = 1 obs, B = 2 obs, ...
      
           40 +
              |
              |                                            A
              |
              |                                       A
              |                                                  A
       残  20 +
       差     |
              |                                        A               A
              |                  A   A                    A   AA
              |                           A   A     B A A A   A
              |           A          BA   A  A     BA  A   BA AA A
            0 +----------A---A---A-AAA-A--BA--A--AAAA-AEA-A--AA-A-A-----------------
              |                A     B B DC  AAB BA A  B  BAA A  A  B  A A
              |                 A    A       AA   CB    A   A    A ABA     A
              |                              A                 A       A
              |                                                      A
              |
          -20 +
              --+------------+------------+------------+------------+------------+--
               140          150          160          170          180          190
                                             shintyou
      
                                     2018年10月22日 月曜日 08時39分24秒  10
             プロット : resid1*kyoui   凡例 : A = 1 obs, B = 2 obs, ...
      
               40 +
                  |
                  |      A
                  |
                  |                                        A
                  |                                                    A
           残  20 +
           差     |
                  |                                     A      A
                  |                             A      AA   B
                  |             A               AA   A BB
                  |                       A      BAAAB  AAA B  B      A
                0 +-----------------------A---C--A-ABFBBE--AB-----A-------------
                  |                              EBCAGAEDA AB
                  |                           AAABBA D AC A
                  |                                  BA
                  |                               A
                  |
              -20 +
                  ---+-------------+-------------+-------------+-------------+--
                    40            60            80            100           120
                                               kyoui
      
                                     2018年10月22日 月曜日 08時39分24秒  11
            プロット : resid1*taijyuu   凡例 : A = 1 obs, B = 2 obs, ...
      
               40 +
                  |
                  |                                               A
                  |
                  |                                                  A
                  |                                                          A
           残  20 +
           差     |
                  |                                        A          A
                  |                           A   A      A   AA
                  |                          A  AA   A BB
                  |                  A   AA A  A  B  CAABA    A
                0 +-----------------A-AAACA-B-C-ACBD-C---A----------------------
                  |                 A  CADCD AB BCBA B AB
                  |             A   A  ABB  B A AC  B  A
                  |                    A       A A
                  |                           A
                  |
              -20 +
                  ---+-------------+-------------+-------------+-------------+--
                    20            40            60            80            100
                                              taijyuu
      
      
    3. 結果の見方
      • 対象になったのは 114名。
      • 説明変量群が予測に役立っているか?
        • 回帰に役立っているか : Prob>F : 小さいと有意
        • 「役立っている」と言える : 0.01% だから 1% で有意
      • 決定係数 : R-Square ( 相関係数 : R )
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。: 60.5%
        • 説明変量数が増えると大きくなるのが一般的。
      • 回帰係数 : Parameter Estimate
        • 回帰式: a=0.807, b=0.349, c=-106
      • ある特定の説明変量が予測に役立っているか?
        • 回帰係数の検定(帰無仮説:係数=0 か?) : Prob>|T| : 小さいと有意
        • 両方とも(身長も胸囲も)有意
        • 「各係数は 0ではない」と言える : 0.01% だから 1% で有意
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか? : もし傾向があると言うことになれば正規性の仮定が崩れている
        • 体重の大きい 34例程度が外れ値と考えられるか要確認 ===> [演習1](第5節)
        • ...
      • ...

  2. 特定グループでの解析
    • 「男性のみ」と言う特定のグループに対して、同様の解析を行うには?

    1. プログラム : les0402.sas

       /* Lesson 04-2 */
       /*    File Name = les0402.sas   10/23/18   */
      options linesize=72 pagesize=20;
      options nocenter linesize=78 pagesize=30;
      
      proc printto log   = 'Kougi/les0402_log.txt'
                   print = 'Kougi/les0402_Results.txt' new;
      
      ods listing gpath='Kougi/SAS_ODS99';
      
      data gakusei;
        infile 'Kougi/all07au.txt'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;                    : 性別不明は除外
      if shintyou=. | taijyuu=. | kyoui=. then delete;       : 欠損のあるデータは除外
      
      proc print data=gakusei(obs=10);
      run;
      
      proc corr data=gakusei;                                : 相関係数
        where sex='M';                                       : 男性について
      run;                                                   :
                                                             :
      proc reg data=gakusei;                                 : 回帰分析
        model taijyuu=shintyou kyoui;                        :
        where sex='M';                                       : 男性について
        output out=outreg1 predicted=pred1 residual=resid1;  :
      run;                                                   :
      
      proc print data=outreg1(obs=15);
      run;
      
      proc plot data=outreg1;
        where sex='M';                                       : 対象データについて
        plot taijyuu*shintyou;
        plot taijyuu*kyoui;
        plot taijyuu*pred1;
        plot resid1*(pred1 shintyou kyoui taijyuu)/vref=0;          : まとめて記述
      /*
        plot resid1*pred1   /vref=0;
        plot resid1*shintyou/vref=0;
        plot resid1*kyoui   /vref=0;
        plot resid1*taijyuu /vref=0;
      */
      run;
      
      proc univariate data=outreg1 plot normal;
        var resid1;
      run;
      
    2. 出力結果 : les0402_Results.txt , les0402_out.pdf
      CORR プロシジャ
      
                              単純統計量
       
      変数             N        平均    標準偏差        合計
      
      taijyuu          242      62.23884         7.92774         15062
      kyoui             71      88.09859         9.68527          6255
      kodukai          229         48620           52677      11134000
      tsuuwa            88          6422            4521        565098
      
                単純統計量
       
      変数       最小値     最大値
      
      taijyuu       46.00000     100.00000
      kyoui         46.00000     112.00000
      kodukai              0        350000
      tsuuwa               0         30000
      
                                     2018年10月22日 月曜日 08時58分30秒  20
      CORR プロシジャ
                                 Pearson の相関係数
                            H0: Rho=0 に対する Prob > |r|
                               オブザベーション数
       
                    shintyou       taijyuu         kyoui       kodukai        tsuuwa
      
      shintyou       1.00000       0.43758       0.15872       0.07647      -0.03430
                                    <.0001        0.1862        0.2491        0.7510
                         242           242            71           229            88
      
      taijyuu        0.43758       1.00000       0.40227       0.04119      -0.01583
                      <.0001                      0.0005        0.5352        0.8836
                         242           242            71           229            88
      
      kyoui          0.15872       0.40227       1.00000      -0.37945      -0.38661
                      0.1862        0.0005                      0.0015        0.1721
                          71            71            71            67            14
      
      kodukai        0.07647       0.04119      -0.37945       1.00000       0.24685
                      0.2491        0.5352        0.0015                      0.0219
                         229           229            67           229            86
      
      tsuuwa        -0.03430      -0.01583      -0.38661       0.24685       1.00000
                      0.7510        0.8836        0.1721        0.0219              
                          88            88            14            86            88
      
                                     2018年10月22日 月曜日 08時58分30秒  23
      REG プロシジャ
      モデル : MODEL1
      従属変数 : taijyuu 
      
      読み込んだオブザベーション数            242
      使用されたオブザベーション数             71
      欠損値を含むオブザベーション数          171
      
                                     2018年10月22日 月曜日 08時58分30秒  24
      REG プロシジャ
      モデル : MODEL1
      従属変数 : taijyuu 
      
                                      分散分析
       
      要因              自由度     平方和   平均平方     F 値   Pr > F
      
      Model                       2    1596.38065      798.19033     13.06   <.0001
      Error                      68    4155.98301       61.11740                   
      Corrected Total            70    5752.36366                                  
      
      Root MSE                     7.81776    R2 乗                  0.2775
      従属変数の平均              64.72817    調整済み R2 乗         0.2563
      変動係数                    12.07784                                  
      
                                     2018年10月22日 月曜日 08時58分30秒  25
      REG プロシジャ
      モデル : MODEL1
      従属変数 : taijyuu 
      
                               パラメータの推定
                              パラメータ
      変数      自由度         推定値   標準誤差     t 値   Pr > |t|
      
      Intercept           1         -54.72134       27.50850     -1.99     0.0507
      shintyou            1           0.52620        0.15946      3.30     0.0015
      kyoui               1           0.32534        0.09772      3.33     0.0014
      
                                     2018年10月22日 月曜日 08時58分32秒  27
           プロット : taijyuu*shintyou   凡例 : A = 1 obs, B = 2 obs, ...
      taijyuu |
          100 +                                           A
              |                            A              A       A
              |                                  A                       A
           75 +                    A    B   B A BAA  C  AAA B    A     A
              |                  B B   BC B HAC DF D G D DC C K A B  B A
              |    A      C   BB   C CAFGBD M JBKK FAE DBCC A  BA AA
           50 +      A    B A  C   A AACCAA A C C  B C
              |
              |
           25 +
              ---+--------+--------+--------+--------+--------+--------+--------+--
                155      160      165      170      175      180      185      190
                                             shintyou
      
                                     2018年10月22日 月曜日 08時58分32秒  28
            プロット : taijyuu*kyoui   凡例 : A = 1 obs, B = 2 obs, ...
                   (NOTE: 171 obs が欠損値です。)
          taijyuu |
              100 +                                                    A
                  |                                        A   A
                  |      A
               75 +                                    AA   C  A      A
                  |                              A A CABIBBAD     A
                  |                       A   A BCA ADBEF  AA  A
               50 +             A             A  AA
                  |
                  |
               25 +
                  ---+-------------+-------------+-------------+-------------+--
                    40            60            80            100           120
                                               kyoui
      
                                     2018年10月22日 月曜日 08時58分32秒  31
           プロット : resid1*shintyou   凡例 : A = 1 obs, B = 2 obs, ...
               (NOTE: 171 obs が欠損値です。)
              |
           50 +
       残     |
       差     |                                  A
           25 +                            A              A
              |                                                   A
              |    A                      A A A B    B  A
            0 +---------------AA-----A-CD-A-G-A-BB-BAC-A-AB-A-B---A--A-------------
              |           A    B   A A  A   A A AA A   A  A A BAA A    A
              |
          -25 +
              ---+--------+--------+--------+--------+--------+--------+--------+--
                155      160      165      170      175      180      185      190
                                             shintyou
      
                                     2018年10月22日 月曜日 08時58分32秒  32
             プロット : resid1*kyoui   凡例 : A = 1 obs, B = 2 obs, ...
                   (NOTE: 171 obs が欠損値です。)
                  |
               50 +
           残     |
           差     |      A
               25 +                                        A           A
                  |                                            A
                  |                              A     BD   B
                0 +-------------A---------A---A-AB-AADACHBABE--B--A---A---------
                  |                           A ABB  CBCD A A
                  |
              -25 +
                  ---+-------------+-------------+-------------+-------------+--
                    40            60            80            100           120
                                               kyoui
      
                                     2018年10月22日 月曜日 08時58分32秒  33
            プロット : resid1*taijyuu   凡例 : A = 1 obs, B = 2 obs, ...
               (NOTE: 171 obs が欠損値です。)
              |
           50 +
       残     |
       差     |                                                 A
           25 +                                                      A            A
              |                                                        A
              |                        A       AAB A A   AA
            0 +----------------A-AA---FADE--GBAB-DB-------A-------------------------
              |        A A  A    CAABAE A B    A
              |
          -25 +
              --+----------+----------+----------+----------+----------+----------+-
               40         50         60         70         80         90         100
                                              taijyuu
      
      
    3. 結果の見方
      • 単変量毎の相関が有意なのは、身長と体重、体重と胸囲の間。

      • 対象になったのは 71名。
      • 回帰に役立っているか : 役立っている : 0.01% だから 1% で有意
      • 決定係数(R-square)は 27.8%
      • 個々の説明変量が予測に役立っているか?
        • 係数がゼロか? : 定数項も身長も胸囲も有意(1% で有意)
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 均等に散らばっているか?
        • 傾向はないか? : 傾向があると言うことは正規性の仮定が崩れていること
        • 外れ値? 80Kg より重い 4名程度が吟味対象?

    4. [演習1] : 「男性のみ」で、かつ「体重の大きい 34名を除外」して実行してみよ。
      • プログラム : les0403.sas、 出力結果 : les0403_Results.txt , les0403_out.pdf
          where sex='M' and taijyuu<80;
        
      • 当てはまりは良くなったか? : 異常値と外れ値の意味するもの
      • 残差の正規性はどのように変化したか?

  3. [回帰分析:要点] 解析する上での注意点

  4. 4つの尺度と回帰分析


  5. 身近な統計の話題から
    1. 誤用?!
      • 構造がシンプルで理解し易い分、"変な"利用も散見される
      • 内挿(観測点の内側)はまだしも、外挿(観測点の外側)を予測するのは難しい or 無謀。
      • 予測範囲でデータの構造が一定という"条件"が必要。
      • 線形で表現できる関係なのか? 線形の関係式が有効なのか? 非線型?
      • 自分で判断できる能力を持つこと。疑うこと。
       [例1] 人間の成長曲線
       [例2] 将来のプログラマ必要数予測 : 21世紀(?)には国民全員がプログラマ ('80s)
       [例3] オリンピック 100m 走の男女記録 : 2156年には女性の方が速い (2004.09.30) :
              Japan Journal LTD の記事 , 朝日新聞 の記事
           [究極の命題!] 100m に 0.00秒 要する(!?)ようになるのは何時?

    2. 教育関係: 教育効果と所得の関係


  6. 回帰分析における変数選択 :  回帰分析では回帰係数や重相関係数を知ることだけでなく 残差解析も重要であることを強調したつもりである。 次に説明変数の取捨選択(変数選択)について説明する。

    1. プログラム : les0404.sas

       /* Lesson 04-4 */
       /*    File Name = les0404.sas   10/23/18   */
      options linesize=72 pagesize=20;
      options nocenter linesize=78 pagesize=30;
      
      proc printto log   = 'Kougi/les0404_log.txt'
                   print = 'Kougi/les0404_Results.txt' new;
      
      ods listing gpath='Kougi/SAS_ODS99';
      
      data air;
        infile '/folders/myfolders/Kougi/usair2.prn';
        input id $ y x1 x2 x3 x4 x5 x6;
      /*
        label y='SO2 of air in micrograms per cubic metre'
              x1='Average annual temperature in F'
              x2='Number of manufacturing enterprises employing 20 or more workers'
              x3='Population size (1970 census); in thousands'
              x4='Average annual wind speed in miles per hour'
              x5='Average annual precipitation in inches'
              x6='Average number of days with precipitation per year'
      ;
      */
      
      proc print data=air(obs=10);
      run;
      
      proc corr data=air;
      run;
      
      proc reg data=air;                                       :
        model y=x1 x2 x3 x4 x5 x6;                             : フルモデル
        output out=outreg1 predicted=pred1 residual=resid1;    :
      run;                                                     :
      
      proc plot data=outreg1;
        plot resid1*pred1 /vref=0;                             :
        plot resid1*x1    /vref=0;                             : ズラズラと列記
        plot resid1*x2    /vref=0;                             :
        plot resid1*x3    /vref=0;                             :
        plot resid1*x4    /vref=0;                             :
        plot resid1*x5    /vref=0;                             :
        plot resid1*x6    /vref=0;                             :
        plot resid1*y     /vref=0;                             :
      run;
      
      proc reg data=air;                                       :
        model y=x1-x6 / selection=stepwise;                    : 逐次増減法
        output out=outreg1 predicted=pred1 residual=resid1;    : 連続変数の指定方法
      run;                                                     :
      
      proc print data=outreg1(obs=15);
      run;
      
      proc plot data=outreg1;
        plot resid1*pred1               /vref=0;            :
        plot resid1*(x1 x2 x3 x4 x5 x6) /vref=0;            : 簡略形(上と比較せよ)
        plot resid1*(x1-x6)             /vref=0;            : 簡略形(これも同じ意味)
        plot resid1*y                   /vref=0;            :
      run;
      
      proc reg data=air;                                       :
        model y=x1-x6 / selection=rsquare;                     : 総当たり法
      run;                                                     :
      
    2. 出力結果 : les0404_Results.txt , les0404_out.pdf
                                     2018年10月22日 月曜日 10時19分59秒   1
      OBS    id           y     x1      x2     x3     x4      x5      x6
      
        1    Phoenix     10    70.3    213    582    6.0     7.05     36
        2    Little_R    13    61.0     91    132    8.2    48.52    100
        3    San_Fran    12    56.7    453    716    8.7    20.66     67
        4    Denver      17    51.9    454    515    9.0    12.95     86
        5    Hartford    56    49.1    412    158    9.0    43.37    127
        6    Wilmingt    36    54.0     80     80    9.0    40.25    114
        7    Washingt    29    57.3    434    757    9.3    38.89    111
        8    Jacksonv    14    68.4    136    529    8.8    54.47    116
        9    Miami       10    75.5    207    335    9.0    59.80    128
       10    Atlanta     24    61.5    368    497    9.1    48.34    115
      
                                     2018年10月22日 月曜日 10時19分59秒   2
      CORR プロシジャ
      
         7  変数 :    y        x1       x2       x3       x4       x5       x6    
      
                              単純統計量
       
      変数             N        平均            標準偏差        合計
      
      y                 41      30.04878        23.47227          1232
      
       
      変数             N        平均            標準偏差        合計
      
      x1                41      55.76341         7.22772          2286
      x2                41     463.09756       563.47395         18987
      x3                41     608.60976       579.11302         24953
      x4                41       9.44390         1.42864     387.20000
      x5                41      36.76902        11.77155          1508
      x6                41     113.90244        26.50642          4670
      
      
                                     2018年10月22日 月曜日 10時20分00秒   5
      CORR プロシジャ
                          Pearson の相関係数, N = 41
                         H0: Rho=0 に対する Prob > |r|
       
                 y        x1        x2        x3        x4        x5        x6
      
      y    1.00000  -0.43360   0.64477   0.49378   0.09469   0.05429   0.36956
                      0.0046    <.0001    0.0010    0.5559    0.7360    0.0174
      
      x1  -0.43360   1.00000  -0.19004  -0.06268  -0.34974   0.38625  -0.43024
            0.0046              0.2340    0.6970    0.0250    0.0126    0.0050
      
      x2   0.64477  -0.19004   1.00000   0.95527   0.23795  -0.03242   0.13183
            <.0001    0.2340              <.0001    0.1341    0.8405    0.4113
      
      x3   0.49378  -0.06268   0.95527   1.00000   0.21264  -0.02612   0.04208
            0.0010    0.6970    <.0001              0.1819    0.8712    0.7939
      
      x4   0.09469  -0.34974   0.23795   0.21264   1.00000  -0.01299   0.16411
            0.5559    0.0250    0.1341    0.1819              0.9357    0.3052
      
      x5   0.05429   0.38625  -0.03242  -0.02612  -0.01299   1.00000   0.49610
            0.7360    0.0126    0.8405    0.8712    0.9357              0.0010
      
      x6   0.36956  -0.43024   0.13183   0.04208   0.16411   0.49610   1.00000
            0.0174    0.0050    0.4113    0.7939    0.3052    0.0010          
      
                                     2018年10月22日 月曜日 10時20分00秒   8
      
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
      
      読み込んだオブザベーション数          41
      使用されたオブザベーション数          41
      
                                      分散分析
      要因                   自由度      平方和       平均平方       F 値     Pr > F
      Model                       6         14755      2459.10601     11.48   <.0001
      Error                      34    7283.26641      214.21372                   
      Corrected Total            40         22038                                  
      
      Root MSE                    14.63604    R2 乗                  0.6695
      従属変数の平均              30.04878    調整済み R2 乗         0.6112
      変動係数                    48.70761                                  
      
                               パラメータの推定
                              パラメータ
      変数             自由度          推定値       標準誤差     t 値   Pr > |t|
      
      Intercept           1         111.72848       47.31810      2.36     0.0241
      x1                  1          -1.26794        0.62118     -2.04     0.0491
      x2                  1           0.06492        0.01575      4.12     0.0002
      x3                  1          -0.03928        0.01513     -2.60     0.0138
      x4                  1          -3.18137        1.81502     -1.75     0.0887
      x5                  1           0.51236        0.36276      1.41     0.1669
      x6                  1          -0.05205        0.16201     -0.32     0.7500
      
                                     2018年10月22日 月曜日 10時20分04秒  11
             プロット : resid1*pred1   凡例 : A = 1 obs, B = 2 obs, ...
              |
           50 +                               A
       残     |
       差     |                         A
           25 +
              |         A       A       B
              |              B      B   A       A    B
            0 +--------------AAA-----ABAAAA---------A-----------------------A------
              |                  A CB  BA
              |                        C A    A
          -25 +                                A
              ---+--------+--------+--------+--------+--------+--------+--------+--
                -20       0       20       40       60       80       100      120
                                           予測値 y
      
                                     2018年10月22日 月曜日 10時20分04秒  19
      
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
      
      読み込んだオブザベーション数          41
      使用されたオブザベーション数          41
       
      ステップワイズ法: ステップ 1
      
      変数 x2 の追加 : R2 乗 = 0.4157 C(p) = 23.1089
      
                                      分散分析
      要因                   自由度      平方和       平均平方      F 値   Pr > F
      
      Model                       1    9161.74469     9161.74469     27.75   <.0001
      Error                      39         12876      330.15789                   
      Corrected Total            40         22038                                  
      
                 パラメータ                      Type II
      変数               推定値       標準誤差    平方和    F 値  Pr > F
      
      Intercept         17.61057       3.69159   7513.50474    22.76  <.0001
      x2                 0.02686       0.00510   9161.74469    27.75  <.0001
      
      条件数における境界 : 1, 1
      ------------------------------------------------------------------------------
      
      ステップワイズ法: ステップ 2
                                     2018年10月22日 月曜日 10時20分04秒  22
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
       
      変数 x3 の追加 : R2 乗 = 0.5863 C(p) = 7.5586
      
                                      分散分析
      要因                   自由度     平方和       平均平方        F 値   Pr > F
      Model                       2         12921     6460.63359     26.93   <.0001
      Error                      38    9116.63526      239.91145                   
      Corrected Total            40         22038                                  
      
                 パラメータ                      Type II
      変数              推定値       標準誤差     平方和    F 値  Pr > F
      Intercept         26.32508       3.84044        11273    46.99  <.0001
      x2                 0.08243       0.01470   7548.02378    31.46  <.0001
      x3                -0.05661       0.01430   3759.52248    15.67  0.0003
      
      条件数における境界 : 11.434, 45.735
      ------------------------------------------------------------------------------
      
      ステップワイズ法: ステップ 3
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
       
      変数 x6 の追加 : R2 乗 = 0.6174 C(p) = 6.3610
      
                                        分散分析
      要因                  自由度       平方和       平均平方     F 値   Pr > F
      Model                       3         13606     4535.41173     19.90   <.0001
      Error                      37    8431.66725      227.88290                   
      Corrected Total            40         22038                                  
      
                 パラメータ                    Type II
      変数              推定値      標準誤差      平方和      F 値   Pr > F
      Intercept          6.96585      11.77691     79.72552     0.35  0.5578
      x2                 0.07433       0.01507   5547.32154    24.34  <.0001
      x3                -0.04939       0.01454   2628.36952    11.53  0.0016
      x6                 0.16436       0.09480    684.96801     3.01  0.0913
      
      条件数における境界 : 12.65, 78.633
      ------------------------------------------------------------------------------
      
      モデル内のすべての変数は水準 0.1500 で有意です。
      
      モデルへの変数追加で、他の変数は有意水準 0.1500 
      で満たされていません。
      
                           ステップワイズ法の要約
                   変数の 変数の 取り込んだ
      ステップ 追加    削除     変数の数   偏 R2 乗 モデル R2 乗
      
            1      x2                          1         0.4157        0.4157     
            2      x3                          2         0.1706        0.5863     
            3      x6                          3         0.0311        0.6174     
      
          ステップワイズ法の要約
      ステップ  C(p)        F 値    Pr > F
      
            1      23.1089      27.75    <.0001
            2       7.5586      15.67    0.0003
            3       6.3610       3.01    0.0913
      
                                     2018年10月22日 月曜日 10時20分06秒  31
      
      OBS  id          y   x1    x2    x3    x4     x5    x6     pred1    resid1
      
        1  Phoenix    10  70.3   213   582   6.0   7.05   36    -0.032   10.0316
        2  Little_R   13  61.0    91   132   8.2  48.52  100    23.646  -10.6461
        3  San_Fran   12  56.7   453   716   8.7  20.66   67    16.285   -4.2849
        4  Denver     17  51.9   454   515   9.0  12.95   86    29.410  -12.4103
        5  Hartford   56  49.1   412   158   9.0  43.37  127    50.661    5.3392
        6  Wilmingt   36  54.0    80    80   9.0  40.25  114    27.698    8.3020
        7  Washingt   29  57.3   434   757   9.3  38.89  111    20.079    8.9208
        8  Jacksonv   14  68.4   136   529   8.8  54.47  116    10.011    3.9887
        9  Miami      10  75.5   207   335   9.0  59.80  128    26.844  -16.8439
       10  Atlanta    24  61.5   368   497   9.1  48.34  115    28.673   -4.6731
       11  Chicago   110  50.6  3344  3369  10.4  34.44  122   109.181    0.8191
       12  Indianap   28  52.3   361   746   9.7  38.74  121    16.840   11.1603
       13  Des_Moin   17  49.0   104   201  11.2  30.85  103    21.697   -4.6973
       14  Wichita     8  56.6   125   277  12.7  30.58   82    16.053   -8.0528
       15  Louisvil   30  55.6   291   593   8.3  43.11  123    19.522   10.4776
      
                                     2018年10月22日 月曜日 10時20分06秒  32
             プロット : resid1*pred1   凡例 : A = 1 obs, B = 2 obs, ...
           50 +                         A
              |
       残     |                  A
       差     |                B
              | A        AAB   A            A A
            0 +-----A-A--A--BAA-AAA---------A-------------------------------A-------
              |          BAA BAAA   A                  A
              |               AA   A  A  A
              |                       A
              |
          -50 +
              --+----------+----------+----------+----------+----------+----------+-
                0         20         40         60         80         100        120
                                            予測値 y
      
                                     2018年10月22日 月曜日 10時20分06秒  46
      REG プロシジャ
      モデル : MODEL1
      従属変数 : y 
       
      R2 乗選択法
      
      読み込んだオブザベーション数          41
      使用されたオブザベーション数          41
      
      取り込んだ
       変数の数      R2 乗    モデルの独立変数
                1        0.4157    x2                      
                1        0.2438    x3                      
                1        0.1880    x1                      
                1        0.1366    x6                      
                1        0.0090    x4                      
                1        0.0029    x5                      
      -----------------------------------------------------
                2        0.5863    x2 x3                   
                2        0.5161    x1 x2                   
                2        0.4981    x2 x6                   
                2        0.4214    x2 x5                   
                2        0.4194    x2 x4                   
                2        0.4066    x1 x3                   
                2        0.3657    x3 x6                   
                2        0.2483    x3 x5                   
                2        0.2458    x1 x5                   
                2        0.2439    x3 x4                   
                2        0.2291    x1 x6                   
                2        0.1917    x1 x4                   
                2        0.1587    x5 x6                   
                2        0.1378    x4 x6                   
                2        0.0120    x4 x5                   
      -----------------------------------------------------
                3        0.6174    x2 x3 x6                
                3        0.6125    x1 x2 x3                
                3        0.5930    x2 x3 x5                
                3        0.5930    x2 x3 x4                
                3        0.5622    x1 x2 x5                
                3        0.5452    x1 x2 x6                
                3        0.5452    x1 x2 x4                
                3        0.5083    x2 x4 x6                
                3        0.5047    x2 x5 x6                
                3        0.4649    x1 x3 x5                
                3        0.4446    x1 x3 x6                
                3        0.4320    x1 x3 x4                
                3        0.4250    x2 x4 x5                
                3        0.3808    x3 x5 x6                
                3        0.3702    x3 x4 x6                
                3        0.2550    x1 x4 x5                
                3        0.2484    x3 x4 x5                
                3        0.2462    x1 x5 x6                
                3        0.2332    x1 x4 x6                
                3        0.1590    x4 x5 x6                
      -----------------------------------------------------
                4        0.6396    x1 x2 x3 x5             
                4        0.6329    x1 x2 x3 x4             
                4        0.6291    x1 x2 x3 x6             
                4        0.6285    x2 x3 x4 x6             
                4        0.6176    x2 x3 x5 x6             
                4        0.6028    x1 x2 x4 x5             
                4        0.5997    x2 x3 x4 x5             
                4        0.5747    x1 x2 x4 x6             
                4        0.5622    x1 x2 x5 x6             
                4        0.5164    x2 x4 x5 x6             
                4        0.5035    x1 x3 x4 x5             
                4        0.4708    x1 x3 x4 x6             
                4        0.4649    x1 x3 x5 x6             
                4        0.3871    x3 x4 x5 x6             
                4        0.2550    x1 x4 x5 x6             
      -----------------------------------------------------
                5        0.6685    x1 x2 x3 x4 x5          
                5        0.6501    x1 x2 x3 x4 x6          
                5        0.6396    x1 x2 x3 x5 x6          
                5        0.6290    x2 x3 x4 x5 x6          
                5        0.6040    x1 x2 x4 x5 x6          
                5        0.5043    x1 x3 x4 x5 x6          
      -----------------------------------------------------
                6        0.6695    x1 x2 x3 x4 x5 x6       
    3. 結果の見方
      • フルモデル
      • 逐次選択法(stepwise)
        • 変量増減法。
        • 一度取り込まれても、組合わせによっては削除される。
      • 総当たり法(rsquare)
        • 説明変数の組合わせ毎の決定係数(R^2)が表示される : 大きい順に
        • モデルの探索用。
        • 決定係数 : R-Square : 1 に近いほど当てはまりが良いと言える
        • 説明変数が増えると大きくなるのが一般的
        • 興味のある組合わせを見つけ出して、このあと計算させる。残差解析も行うこと。
      • 他に、前進選択法(forward)、後退選択法(backward)、...
      • 「数値計算上の最適モデル」と「その分野の知識からの最適モデル」には違いがあることを知っておくこと。
      • 残差解析はいつの場合でも必要
        • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 均等に散らばっているか?
        • 傾向はないか? : 傾向があると言うことは正規性の仮定が崩れていること
        • ...
      • ...

  7. 次回は、... : 10月30日 16:20-17:50
    • 主成分分析
    • 因子分析
    • ...
[DIR]講義のホームページへ戻ります