二変量の関係、回帰分析、外れ値の処理

統計解析 06 クラス : 第12回 (01/12/06)

 これまでは主に単変量(一変量)を取り扱う統計手法を紹介してきた。 今後は、二変量以上、つまり、多変量解析の手法を紹介していく。 最初に、相関係数や散布図、次に、回帰分析を紹介する。
  1. 複数変量の関係
     手始めに二変量の関係を説明する方法について紹介する。

  2. 散布図と相関係数

    1. プログラム : les1201.sas

       /* Lesson 12-1 */
       /*    File Name = les1201.sas   01/12/06   */
      
      data gakusei;
        infile 'all05be.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      
      proc print data=gakusei(obs=10);
      run;
      proc plot data=gakusei;              : 散布図を描く
        plot shintyou*taijyuu;             : 散布図の変量を指定(縦軸、横軸の順)
        plot taijyuu*shintyou;             :
      run:                                 :
      proc corr data=gakusei;              : 相関係数(相関行列)を計算
      run:                                 :
      
    2. 出力結果 : les1201.lst
      
                                    SAS システム                             2
                                               17:36 Thursday, January 5, 2006
           プロット : SHINTYOU*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                    (NOTE: 42 オブザベーションが欠損値です.)
          SHINTYOU |
               200 +
                   |
                   |                             A B       A
               180 +                       A BECFDDBEA B B      A  A  A
                   |                    CAGELHTPJHCFECB BB
                   |                  AFAGIIFEBBDEAA  AA A     A
               160 +                ADDGDIEDBABB
                   |           A   ECAEDDA A   A
                   |             A BAA
               140 +
                   ---+-----------+-----------+-----------+-----------+--
                     20          40          60          80          100
                                           TAIJYUU
      
                                    SAS システム                             3
                                               17:36 Thursday, January 5, 2006
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
               (NOTE: 42 オブザベーションが欠損値です.)
          100 +                                               B
              |                                    A              A
      TAIJYUU |                               A   A     A B B A        A
              |                               A B CBDDC DCGAD CCF B  BA
              |                 A  AA   E B CBDBG KBRHLBLFFFD CBDCB A
           50 +            AAA  CACEC EDIAG EBDGF DAABC  BC
              |       A A B   D BA BA
              |
              |
              |
            0 +
              --+-----------+-----------+-----------+-----------+-----------+-
               140         150         160         170         180         190
                                          SHINTYOU
      
                                    SAS システム                             4
                                               17:36 Thursday, January 5, 2006
                                Correlation Analysis
      
            5 'VAR' Variables:  SHINTYOU TAIJYUU  KYOUI    KODUKAI  TSUUWA  
      
                                 Simple Statistics
       
        Variable         N      Mean   Std Dev       Sum   Minimum   Maximum
      
        SHINTYOU       327     167.8    8.1940   54880.7     145.0     186.0
        TAIJYUU        296   58.5196    9.3328   17321.8   35.0000     100.0
        KYOUI          108   86.4167    7.5407    9333.0   56.0000     112.0
        KODUKAI        315   48314.3   48562.6  15219000         0    300000
        TSUUWA         117    6783.4    4564.7    793652         0   30000.0
      
                                    SAS システム                             5
                                               17:36 Thursday, January 5, 2006
                                Correlation Analysis
      
           Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
           / Number of Observations  
      
                    SHINTYOU     TAIJYUU       KYOUI     KODUKAI      TSUUWA
      
        SHINTYOU     1.00000     0.70509     0.37978     0.05216     0.04552
                      0.0         0.0001      0.0001      0.3624      0.6306
                         327         296         108         307         114
      
        TAIJYUU      0.70509     1.00000     0.66154    -0.01649     0.01120
                      0.0001      0.0         0.0001      0.7839      0.9093
                         296         296         108         279         106
      
        KYOUI        0.37978     0.66154     1.00000    -0.08519    -0.00489
                      0.0001      0.0001      0.0         0.3899      0.9788
                         108         108         108         104          32
      
        KODUKAI      0.05216    -0.01649    -0.08519     1.00000     0.20394
                      0.3624      0.7839      0.3899      0.0         0.0295
                         307         279         104         315         114
      
        TSUUWA       0.04552     0.01120    -0.00489     0.20394     1.00000
                      0.6306      0.9093      0.9788      0.0295      0.0   
                         114         106          32         114         117
      
    3. 結果の見方
      • 縦軸と横軸の該当部分が交差したところにマークを付置
      • データが1つなら「Aマーク」、2つなら「Bマーク」、3つなら「Cマーク」、...
      • データ全体がどこに分布しているかが判る
      • 縦軸と横軸を交換するだけで印象が異なる
      • 各変量の平均値との比較
      • 外れ値(Outlier)を見つける <===> 異常値

      • サンプルサイズ、平均、標準偏差、最大値、最小値 <=== proc means だけでなく proc corr でも得られる。
      • 相関係数(R) / 仮説「相関係数(R)=0」の起る確率 / サンプルサイズ
      • -1 ≦ 相関係数(R)≦ 1
      • R=0 : 無相関。R>0 : 正の相関、右肩上がり。R<0 : 負の相関、右肩下がり。
      • 相関係数(R)が 0 かの検定 : 値が小さいと有意(相関係数が 0 とは言えない、何らかの関係があると言える)
        この例 : 身長と体重、身長と胸囲、体重と胸囲の間には有意な関係があると言える(5%, 1%)。

      [注意] 相関行列は細切れに表示されるので、 不要部分を削除することによって整形しレポート等に使うこと。

  3. [おまけ:再掲] 単変量、二変量を視覚的に捉えると? by Mathematica
    1. 1 dim. Normal Distribution [式(a)] 1次元正規分布 N(0,1)
    2. 2 dim. Normal Distribution [式(b)] 2次元正規分布 N({0,0},{1,1}, ρ=0.0)
    3. 2 dim. Normal Distribution [式(c)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)
    4. 2 dim. Normal Distribution [式(d)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、y=1 で切り出し
    5. 2 dim. Normal Distribution [式(e)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、x+y=2 で切り出し

  4. 単回帰分析 : 予測等に使う、連続変量の関係
     過去のデータからその構造を把握し、新規に測定されたデータに対する予測を 行ないたいと言うときに、回帰分析は有用である。 構造のシンプルな単回帰分析でこの手法の原理を理解し、 複数の説明変量を用いた重回帰分析に拡張する。 残差の取り方や、その二乗和を最少にするという考えは同じである。

    1. プログラム : les1202.sas
       /* Lesson 12-2 */
       /*    File Name = les1202.sas   01/12/06   */
      
      data gakusei;
        infile 'all05be.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc reg data=gakusei;                                 : 回帰分析
        model taijyuu=shintyou;                              : 変量を指定
        output out=outreg1 predicted=pred1 residual=resid1;  : 結果項目の保存
      run;                                                   :
                                                             :
      proc print data=outreg1(obs=15);                       : 表示してみる
      run;                                                   :
                                                             :
      proc plot data=outreg1;                        : 散布図を描く
        plot taijyuu*shintyou/vaxis=20 to 100 by 20; : 体重と身長(縦軸指定)
        plot pred1*taijyuu;                          : 予測値と観測値
        plot resid1*pred1   /vref=0;                 : 残差と予測値(残差解析)(水平軸指定)
        plot resid1*shintyou/vref=0;                 : 残差と説明変数(残差解析)
        plot resid1*taijyuu /vref=0;                 : 残差と目的変数(残差解析)
      run;                                           :
                                                     :
      proc univariate data=outreg1 plot normal;      : 残差を正規プロットして確かめる
        var resid1;                                  :
      run;                                           :
      
      [補足] proc plot の下に以下の行を追加した方がより正確ではある。 欠損値を含むデータを解析対象から除外する事を指示する命令文である。 「欠損値です」の表示が無くなるだけで、得られる図は同じ(欠損値は描画できないから)。 試しに追加する/しないの両方で実行してみよ。
        where shintyou^=. and taijyuu^=.;
      
    2. 出力結果 : les1202.lst
                                    SAS システム                             2
                                               17:36 Thursday, January 5, 2006
      Model: MODEL1  
      Dependent Variable: TAIJYUU                                            
                                Analysis of Variance
      
                                Sum of         Mean
       Source          DF      Squares       Square      F Value       Prob>F
      
       Model            1  12773.94489  12773.94489      290.662       0.0001
       Error          294  12920.64146     43.94776
       C Total        295  25694.58635
      
           Root MSE       6.62931     R-square       0.4971
           Dep Mean      58.51959     Adj R-sq       0.4954
           C.V.          11.32836
      
                                    SAS システム                             3
                                               17:36 Thursday, January 5, 2006
                                Parameter Estimates
      
                         Parameter      Standard    T for H0:               
        Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
      
        INTERCEP   1    -78.107576    8.02313981        -9.735        0.0001
        SHINTYOU   1      0.810528    0.04754164        17.049        0.0001
      
                                    SAS システム                             4
                                               17:36 Thursday, January 5, 2006
                 S
                 H      T               K  C
                 I      A       J       O  A           T                R
                 N      I    K  I       D  R           S      P         E
                 T      J    Y  T       U  R           U      R         S
        O   S    Y      Y    O  A       K  Y           U      E         I
        B   E    O      U    U  K       A  E           W      D         D
        S   X    U      U    I  U       I  R           A      1         1
      
         1  F  145.0  38.0   .  J   10000               .  39.4191   -1.4191
         2  F  146.7  41.0  85  J   10000  Vodafone  6000  40.7970    0.2030
         3  F  148.0  42.0   .  J   50000               .  41.8506    0.1494
         4  F  148.0  43.0  80  J   50000  DoCoMo    4000  41.8506    1.1494
         5  F  148.9    .    .  J   60000               .  42.5801     .    
         6  F  149.0  45.0   .  G   60000               .  42.6612    2.3388
         7  F  150.0  46.0  86      40000               .  43.4717    2.5283
         8  F  151.0  50.0   .  G   60000  J-PHONE      .  44.2822    5.7178
         9  F  151.7  41.5  80  J   35000               .  44.8496   -3.3496
        10  F  152.0  35.0  77  J   60000  DoCoMo    2000  45.0928  -10.0928
        11  F  152.0  43.0   .  J   20000  au        3500  45.0928   -2.0928
        12  F  152.0  44.0   .      45000  DoCoMo    4000  45.0928   -1.0928
        13  F  153.0  41.0   .  J  125000  No           .  45.9033   -4.9033
        14  F  153.0  42.0   .  G       0  Vodafone  1000  45.9033   -3.9033
        15  F  153.0  46.5  87  G   10000               .  45.9033    0.5967
      
                                    SAS システム                             6
                                               17:36 Thursday, January 5, 2006
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
               (NOTE: 42 オブザベーションが欠損値です.)
      TAIJYUU |
          100 +                                               B
              |                                    A              A
           80 +                               A   A     A B B A        A
              |                               A B CBDDC DCGAD CCF B  BA
           60 +                 A  AA   E B CBDBG KBRHLBLFFFD CBDCB A
              |            AAA  CACEC EDIAG EBDGF DAABC  BC
           40 +       A A B   D BA BA
              |
           20 +
              |
              --+-----------+-----------+-----------+-----------+-----------+-
               140         150         160         170         180         190
                                          SHINTYOU
      
                                    SAS システム                             7
                                               17:36 Thursday, January 5, 2006
             プロット : PRED1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                 (NOTE: 42 オブザベーションが欠損値です.)
             80 +
                |
          PRED1 |                             A A B        A
                |                         A BDACFAB F B  A       A  A  A
                |                      ABBCCBMHDEBHBB A BC
             60 +                      CECLHGGKDIBAADABA        A
                |                   AG EHCH CCAAE        A
                |                  BADBDGACAAAA
                |                BABEDCDA  A  A
                |            A   CABB  B  A
             40 +              A BA
                ---+------------+------------+------------+------------+--
                  20           40           60           80           100
                                          TAIJYUU
      
                                    SAS システム                             8
                                               17:36 Thursday, January 5, 2006
             プロット : RESID1*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
             (NOTE: 42 オブザベーションが欠損値です.)
            |
      R  50 +
      e     |
      s     |                                     A       A
      i  25 +                                 A           A
      d     |                        A           B A  AB B    A
      u     |                   A A   A  B BBBB BCBEDCDE  AB  A   A
      a   0 +-------------A-ABAA-CCCCFBDCJAEEBECHKBNHIJNCEBCH-A-AA------------
      l     |                    AA  BAAAB BA BGDCACDFCFDCCAACBAA
            |                                          A     A
        -25 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              30          40          50          60          70          80
                                Predicted Value of TAIJYUU
      
                                    SAS システム                             9
                                               17:36 Thursday, January 5, 2006
            プロット : RESID1*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
             (NOTE: 42 オブザベーションが欠損値です.)
            |
      R  50 +
      e     |
      s     |                                     A          A
      i  25 +                                A               A
      d     |                     A              B A   A B B     A
      u     |               A  A   A   B B BBB B CBEDC CBD   BA  A    A
      a   0 +--------A-A-BAA-C-DBCEC-DCJAE-EBECH-KBNFJAJGGCE-BCH-A--AA--------
      l     |                A A  BA AAB B A BFE CACDEACBDDC CABBB AA
            |                                            A      A
        -25 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              140         150         160         170         180         190
                                         SHINTYOU
      
                                    SAS システム                            10
                                               17:36 Thursday, January 5, 2006
            プロット : RESID1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                 (NOTE: 42 オブザベーションが欠損値です.)
                |
          R  50 +
          e     |
          s     |                                               A      A
          i  25 +                                        A          A
          d     |                             A       BABC       A
          u     |                      A  ABABBBLBECGAC  A A
          a   0 +--------------A-DBDFFEMKEQGJSRHLCH-E---------------------
          l     |            A   CABCI DLDIDDGCBB
                |                      A  A
            -25 +
                ---+------------+------------+------------+------------+--
                  20           40           60           80           100
                                          TAIJYUU
      
                                    SAS システム                            11
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                                      Moments
      
                      N               296  Sum Wgts        296
                      Mean              0  Sum               0
                      Std Dev    6.618065  Variance   43.79878
                      Skewness    1.45171  Kurtosis   4.288591
                      USS        12920.64  CSS        12920.64
                      CV                .  Std Mean   0.384667
                      T:Mean=0          0  Pr>|T|       1.0000
                      Num ^= 0        296  Num > 0         126
                      M(Sign)         -22  Pr>=|M|      0.0123
                      Sgn Rank      -2663  Pr>=|S|      0.0707
                      W:Normal   0.916044  Pr
      
                                    SAS システム                            15
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
      
                             Histogram                      #          Boxplot
           35+*                                             1             *   
             .*                                             4             0   
             .****                                         14             0   
             .***************************                 107          +--+--+
             .*****************************************   163          *-----*
          -15+**                                            7             |   
              ----+----+----+----+----+----+----+----+-              
              * may represent up to 4 counts                         
      
                                    SAS システム                            16
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                                   Normal Probability Plot              
                  35+                                                  *
                    |                                               * **
                    |                                        *******++++
                    |                         ++**************          
                    |      **********************                       
                 -15+**+***++++                                         
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方
      • 対象になったのは 296名。
      • 説明変量が予測に役立っているか?
        • 回帰に役立っているか : Prob>F : 小さいと有意(役立っている)
          [この例] 1% 未満(0.01%) なので役に立っていると言える。
      • 決定係数 : R-Square ( 相関係数 : R )
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。
          [この例] 50% 程(半分, 49.7)を説明できている。
      • 回帰係数 : Parameter Estimate
        [この例] a=0.811, b=-78.1
      • 説明変数が予測に役立っているか?
        回帰係数の検定(係数=0 か?) : Prob>|T| : 小さいと有意(ゼロではないと言える)
        [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか?
        • ...
        [この例] 残差には概ね傾向は見られない。 ただし体重の大きい 3〜4例程度は要確認。場合によっては外れ値として除外も。 ===> 次節

      [注意] 誤差は「説明変量」の軸と垂直に取ることに注意せよ。 誤差は測定時に混入していると考えてモデルが構築されているから。

  5. 「体重の大きい者を除外」して実行するには?
     前節の正規確率プロットを見ると、体重の大きい 4例程度が正規性を乱していることが判った。 そこで体重の大きい者を除外して再度回帰分析にかけてみよう。 その際、除外すると言うよりは、「解析対象者を条件付けして絞る」と 考えた方が解りやすいかもしれない。 ここでは「85Kg 未満の者を対象として」解析を行なう例を示す。

    [注意] 「正規性を乱している者は何でも除外してかまわない」というわけではない。 今回の場合は、元データに戻ったところ、体育会系のずんぐりした者であったため、 普通の大学生とは異なる性質を有していると判断し除外対象とした。 除外する場合にはその根拠を明確にしないと、「恣意的な解析」と言われかねないことに注意せよ。

    1. プログラム : les1203.sas
       /* Lesson 12-3 */
       /*    File Name = les1203.sas   01/12/06   */
      
      data gakusei;
        infile 'all05be.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      if shintyou=. | taijyuu=. then delete;                 : 欠損値データを除外
      
      proc print data=gakusei(obs=10);
      run;
      
      proc corr data=gakusei;
        where taijyuu<85;                                    : 対象データを絞る
      run;
      
      proc reg data=gakusei;
        model taijyuu=shintyou;
        where taijyuu<85;                                    : 対象データを絞る
        output out=outreg1 predicted=pred1 residual=resid1;
      run;
      
      proc print data=outreg1(obs=15);
      run;
      
      proc plot data=outreg1;
        where taijyuu<85;                                    : 対象データを絞る
        plot taijyuu*shintyou;
        plot taijyuu*pred1;
        plot resid1*(pred1 shintyou taijyuu)/vref=0;         : まとめて指定することも可
      run;
      
      proc univariate data=outreg1 plot normal;
        var resid1;
      run;
      
    2. 出力結果 : les1203.lst
                                    SAS システム                             2
                                               17:36 Thursday, January 5, 2006
                                Correlation Analysis
      
            5 'VAR' Variables:  SHINTYOU TAIJYUU  KYOUI    KODUKAI  TSUUWA  
      
                                 Simple Statistics
       
        Variable         N      Mean   Std Dev       Sum   Minimum   Maximum
      
        SHINTYOU       292     168.5    8.0976   49188.1     145.0     186.0
        TAIJYUU        292   58.0421    8.4314   16948.3   35.0000   82.0000
        KYOUI          105   85.9714    7.0485    9027.0   56.0000     110.0
        KODUKAI        275   48925.5   50231.1  13454500         0    300000
        TSUUWA         106    6966.5    4558.8    738452         0   30000.0
      
                                    SAS システム                             3
                                               17:36 Thursday, January 5, 2006
                                Correlation Analysis
      
           Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
           / Number of Observations  
      
                    SHINTYOU     TAIJYUU       KYOUI     KODUKAI      TSUUWA
      
        SHINTYOU     1.00000     0.73303     0.34216     0.06174     0.00660
                      0.0         0.0001      0.0004      0.3077      0.9465
                         292         292         105         275         106
      
        TAIJYUU      0.73303     1.00000     0.59461     0.00737     0.01120
                      0.0001      0.0         0.0001      0.9031      0.9093
                         292         292         105         275         106
      
        KYOUI        0.34216     0.59461     1.00000    -0.07975    -0.00489
                      0.0004      0.0001      0.0         0.4279      0.9788
                         105         105         105         101          32
      
        KODUKAI      0.06174     0.00737    -0.07975     1.00000     0.24950
                      0.3077      0.9031      0.4279      0.0         0.0110
                         275         275         101         275         103
      
        TSUUWA       0.00660     0.01120    -0.00489     0.24950     1.00000
                      0.9465      0.9093      0.9788      0.0110      0.0   
                         106         106          32         103         106
      
                                    SAS システム                             6
                                               17:36 Thursday, January 5, 2006
      Model: MODEL1  
      Dependent Variable: TAIJYUU                                            
                                Analysis of Variance
      
                                Sum of         Mean
       Source          DF      Squares       Square      F Value       Prob>F
      
       Model            1  11115.76839  11115.76839      336.808       0.0001
       Error          290   9570.96349     33.00332
       C Total        291  20686.73188
      
           Root MSE       5.74485     R-square       0.5373
           Dep Mean      58.04212     Adj R-sq       0.5357
           C.V.           9.89773
      
                                    SAS システム                             7
                                               17:36 Thursday, January 5, 2006
                                Parameter Estimates
                         Parameter      Standard    T for H0:               
        Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
      
        INTERCEP   1    -70.528696    7.01376139       -10.056        0.0001
        SHINTYOU   1      0.763247    0.04158860        18.352        0.0001
                                    SAS システム                            10
                                               17:36 Thursday, January 5, 2006
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
      TAIJYUU |
          100 +
              |
              |                                                        A
           75 +                               A   B AAA B C B BA  A
              |                              BB B CBHCCADCGCD BCIAB  BA
              |                 A  AA   E B C CBG JBMHKAKFEDD CAABA A
           50 +             AA  CACEB DDGAF EBDGF DAABC  BC
              |       A A BA  C BA BB A B A
              |               A
           25 +
              --+-----------+-----------+-----------+-----------+-----------+-
               140         150         160         170         180         190
                                          SHINTYOU
      
                                    SAS システム                            11
                                               17:36 Thursday, January 5, 2006
             プロット : TAIJYUU*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
           TAIJYUU |
               100 +
                   |
                   |                                        A
                75 +                    A  B AAAB CBAB  A
                   |                    D BCBHCDDCGGBCIAB BA
                   |         A  AA  E BCCBGHDMJJKFEHCA CAA
                50 +       AABBCEBDDGAFEFGFCBABC BC
                   |  A ABA AD ABBA B A
                   |         A
                25 +
                   ---+-----------+-----------+-----------+-----------+--
                     40          50          60          70          80
                                 Predicted Value of TAIJYUU
      
                                    SAS システム                            12
                                               17:36 Thursday, January 5, 2006
             プロット : RESID1*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
                |
          R  40 +
          e     |
          s     |
          i  20 +                      A  A
          d     |             A           AAABAA CAAA       A
          u     |        A B   B  E BBBBABEAHBBDBD A B A
          a   0 +--A-ABAA-BABDEACCEAEE-EBHFDKGIIGFCDBCH-A-AA--------------
          l     |         AB  BBB E BABBFECBCEEBCBEBCABBBAA
                |         A                   A  C    A
            -20 +
                ---+------------+------------+------------+------------+--
                  40           50           60           70           80
                                Predicted Value of TAIJYUU
      
                                    SAS システム                            13
                                               17:36 Thursday, January 5, 2006
            プロット : RESID1*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                                A   A
      d     |                     A              AAABA A C B A        A
      u     |               A  B   B   E B BBBAB EAHBB DBD A AA  A
      a   0 +--------A-A-BAA-B-BBCEA-CCEAE-E-EBH-HBKEJAIGFCD-BCH-A--AA--------
      l     |                A B  BB BAD B ABBFE DACEDACBBDC CABBB AA
            |                A                       A   C      A
        -20 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              140         150         160         170         180         190
                                         SHINTYOU
      
                                    SAS システム                            14
                                               17:36 Thursday, January 5, 2006
            プロット : RESID1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                                               A  A
      d     |                                 A       AAAA C  BCA  A
      u     |                      B  A D B AC DEDIBAFADB  AA
      a   0 +----------A--AABBADADEFDFDDIFDIBRFKDEFCCC-E----------------------
      l     |             ADA CDCH BBFEEEEDCAGC BAA
            |       A              B  B A
        -20 +
            ---+---------+---------+---------+---------+---------+---------+--
              30        40        50        60        70        80        90
                                          TAIJYUU
      
                                    SAS システム                            15
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                                      Moments
      
                      N               292  Sum Wgts        292
                      Mean              0  Sum               0
                      Std Dev    5.734972  Variance   32.88991
                      Skewness   0.728763  Kurtosis    0.79055
                      USS        9570.963  CSS        9570.963
                      CV                .  Std Mean   0.335614
                      T:Mean=0          0  Pr>|T|       1.0000
                      Num ^= 0        292  Num > 0         125
                      M(Sign)         -21  Pr>=|M|      0.0163
                      Sgn Rank      -1793  Pr>=|S|      0.2150
                      W:Normal   0.961915  Pr
      
                                    SAS システム                            18
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                            Histogram                      #           Boxplot
         22.5+*                                            1              0   
             .*                                            3              0   
             .*****                                       13              0   
             .************                                35              |   
             .*************************                   73           +--+--+
             .****************************************   120           *-----*
             .**************                              41              |   
        -12.5+**                                           6              |   
              ----+----+----+----+----+----+----+----+              
              * may represent up to 3 counts                        
      
                                    SAS システム                            19
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                                   Normal Probability Plot              
                22.5+                                                  *
                    |                                               * **
                    |                                         ******++++
                    |                                  ********+        
                    |                         ++********                
                    |               *************                       
                    |     ***********+                                  
               -12.5+**+**+++                                           
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方 : 前節と本節の出力結果を比較して違いを明確にせよ
      • 対象になったのは 292名。
      • 当てはまりは良くなったか? : 異常値と外れ値の意味するもの
      • 残差の正規性はどのように変化したか?
      • 回帰係数はどのように変化したか?
      • 説明力(決定係数)はどのように変化したか?

      • 単に体重の重い者だけが正規性を乱している訳ではなさそうだ。

  6. 重回帰分析 : 2変量以上の説明する変量(説明変量)で 1変量(目的変量)を説明

    1. プログラム : les1204.sas

       /* Lesson 12-4 */
       /*    File Name = les1204.sas   01/12/06   */
      
      data gakusei;
        infile 'all05be.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc reg data=gakusei;                                  : 回帰分析
        model taijyuu=shintyou kyoui;                         : 複数変量を指定
        output out=outreg1 predicted=pred1 residual=resid1;   : 結果項目の保存
      run;                                                    :
      
      proc print data=outreg1(obs=15);
      run;
                                                       :
      proc plot data=outreg1;                          : 散布図を描く
        where shintyou^=. and taijyuu^=. and kyoui^=.; : 解析に使ったデータのみ
        plot taijyuu*shintyou;                         :
        plot taijyuu*kyoui;                            :
        plot taijyuu*pred1;                            : 観測値と予測値
        plot resid1*pred1   /vref=0;                   : 残差と予測値(残差解析)
        plot resid1*shintyou/vref=0;                   : 残差と説明変量(残差解析)
        plot resid1*kyoui   /vref=0;                   : 残差と説明変量(残差解析)
        plot resid1*taijyuu /vref=0;                   : 残差と目的変量(残差解析)
      run;                                             :
                                                       :
      proc univariate data=outreg1 plot normal;        : 残差を正規プロットして確かめる
        var resid1;                                    :
      run;                                             :
      
    2. 出力結果 : les1204.lst
      
                                    SAS システム                             2
                                               17:36 Thursday, January 5, 2006
      Model: MODEL1  
      Dependent Variable: TAIJYUU                                            
                                Analysis of Variance
      
                                Sum of         Mean
       Source          DF      Squares       Square      F Value       Prob>F
      
       Model            2   8833.42493   4416.71246      129.796       0.0001
       Error          105   3572.95693     34.02816
       C Total        107  12406.38185
      
           Root MSE       5.83337     R-square       0.7120
           Dep Mean      58.51296     Adj R-sq       0.7065
           C.V.           9.96936
      
                                    SAS システム                             3
                                               17:36 Thursday, January 5, 2006
                                Parameter Estimates
      
                         Parameter      Standard    T for H0:               
        Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
      
        INTERCEP   1   -112.597020   11.05047954       -10.189        0.0001
        SHINTYOU   1      0.693759    0.06936383        10.002        0.0001
        KYOUI      1      0.637578    0.08084221         7.887        0.0001
      
                                    SAS システム                             4
                                               17:36 Thursday, January 5, 2006
                 S
                 H      T               K  C
                 I      A       J       O  A           T                R
                 N      I    K  I       D  R           S      P         E
                 T      J    Y  T       U  R           U      R         S
        O   S    Y      Y    O  A       K  Y           U      E         I
        B   E    O      U    U  K       A  E           W      D         D
        S   X    U      U    I  U       I  R           A      1         1
      
         1  F  145.0  38.0   .  J   10000               .    .        .     
         2  F  146.7  41.0  85  J   10000  Vodafone  6000  43.3716  -2.37160
         3  F  148.0  42.0   .  J   50000               .    .        .     
         4  F  148.0  43.0  80  J   50000  DoCoMo    4000  41.0856   1.91440
         5  F  148.9    .    .  J   60000               .    .        .     
         6  F  149.0  45.0   .  G   60000               .    .        .     
         7  F  150.0  46.0  86      40000               .  46.2986  -0.29858
         8  F  151.0  50.0   .  G   60000  J-PHONE      .    .        .     
         9  F  151.7  41.5  80  J   35000               .  43.6525  -2.15251
        10  F  152.0  35.0  77  J   60000  DoCoMo    2000  41.9479  -6.94790
        11  F  152.0  43.0   .  J   20000  au        3500    .        .     
        12  F  152.0  44.0   .      45000  DoCoMo    4000    .        .     
        13  F  153.0  41.0   .  J  125000  No           .    .        .     
        14  F  153.0  42.0   .  G       0  Vodafone  1000    .        .     
        15  F  153.0  46.5  87  G   10000               .  49.0174  -2.51744
      
                                    SAS システム                             6
                                               17:36 Thursday, January 5, 2006
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
          100 +                                               A
              |                                    A              A
      TAIJYUU |                                           A A A
              |                                 B BABAB AACAA A B A  AA
              |                 A  A    B A B BBA BAGBC ABAA  AABBA
           50 +             A   A ADB CCE C BBACB A
              |         A A   B  A A
              |
              |
              |
            0 +
              --+-----------+-----------+-----------+-----------+-----------+-
               140         150         160         170         180         190
                                          SHINTYOU
      
                                    SAS システム                             7
                                               17:36 Thursday, January 5, 2006
             プロット : TAIJYUU*KYOUI.  凡例: A = 1 OBS, B = 2 OBS, ...
           100 +                                                    A
               |                                     A    A
       TAIJYUU |                                      AA          A
               |                          A A C BBF BABA  A  A
               |                  A   A C C AAF FBK  AAA  A
            50 +       A          A   AA  D JCHBBA
               |                      A A B   B
               |
               |
               |
             0 +
               ---+-------+-------+-------+-------+-------+-------+-------+--
                 50      60      70      80      90      100     110     120
                                            KYOUI
      
                                    SAS システム                             8
                                               17:36 Thursday, January 5, 2006
             プロット : TAIJYUU*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
          100 +                                                    A
              |                               A              A
      TAIJYUU |                                    A A           A
              |                       AAA BCABAB  ABABAA  A
              |     A       B  BAAAAAAABBAAFEBABAA AB
           50 + B       CCABCCCC CEA B
              |  AAAB       A
              |
              |
              |
            0 +
              --+-----------+-----------+-----------+-----------+-----------+-
               40          50          60          70          80          90
                                 Predicted Value of TAIJYUU
      
                                    SAS システム                             9
                                               17:36 Thursday, January 5, 2006
             プロット : RESID1*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |                                A
      i  20 +                                                     A
      d     |  A   A                      A                 A
      u     |  A           B  BAAA   AAA ABAAA    A A
      a   0 +---A-AB---CCABBCBB-AABAAAABAAEDB-B---B-BAA---------A-------------
      l     |    A         B AA BD  B A  AAAAABAAAAC     A
            |
        -20 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              40          50          60          70          80          90
                                Predicted Value of TAIJYUU
      
                                    SAS システム                            10
                                               17:36 Thursday, January 5, 2006
            プロット : RESID1*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |                                     A
      i  20 +                                                A
      d     |                  A                 A A             A
      u     |                     B    B   A     BBBAB  ABAA
      a   0 +----------A-A-A-A-AAACB-CBD-B-BABBC-A-DAB-BAC-A-C-A-A--A---------
      l     |                A    A   AA B AAACB A BAA  A A   ACBA   A
            |
        -20 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              140         150         160         170         180         190
                                         SHINTYOU
      
                                    SAS システム                            11
                                               17:36 Thursday, January 5, 2006
             プロット : RESID1*KYOUI.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |                                        A
      i  20 +                                                        A
      d     |     A                   A          A        A
      u     |                  B    A A B  A C ABD    B
      a   0 +-----------------------B-A-F-CDDKCBAH-A-BC---B--------A----------
      l     |                       AA  B CA GACBD  A B       A
            |
        -20 +
            -+--------+--------+--------+--------+--------+--------+--------+-
            50       60       70       80       90       100      110      120
                                           KYOUI
      
                                    SAS システム                            12
                                               17:36 Thursday, January 5, 2006
            プロット : RESID1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                |
          R  40 +
          e     |
          s     |                                               A
          i  20 +                                                      A
          d     |                        AA           A          A
          u     |                    A    BAAAB B BBBA  AA
          a   0 +----------------BABDCCFCAB-CFDCCAA-E----A----------------
          l     |            A   A  BDABB CAADAAD A
                |
            -20 +
                ---+------------+------------+------------+------------+--
                  20           40           60           80           100
                                          TAIJYUU
      
      
                                    SAS システム                            17
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
         Stem Leaf                                               #     Boxplot
            2 4                                                  1        *   
            1 8                                                  1        0   
            1 01234                                              5        0   
            0 55567777788889                                    14        |   
            0 000001111112222334444                             21     +--+--+
           -0 4444443333333333333222222222222221111111111000    46     *-----*
           -0 9887777776666555555                               19        |   
           -1 0                                                  1        |   
              ----+----+----+----+----+----+----+----+----+-              
          Multiply Stem.Leaf by 10**+1                                    
      
                                    SAS システム                            18
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                                   Normal Probability Plot              
                22.5+                                                  *
                    |                                               *   
                    |                                         ***+*+++++
                    |                                  *******++        
                    |                         +++*******                
                    |                *************                      
                    |*  * * **********                                  
               -12.5+++++++++                                           
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方
      • 対象になったのは 108名。
      • 説明変量群が予測に役立っているか?
        • 回帰に役立っているか : Prob>F : 小さいと有意
        • 「役立っている」と言える : 0.01% だから 1% で有意
      • 決定係数 : R-Square ( 相関係数 : R )
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。: 71.2%
        • 説明変量数が増えると大きくなるのが一般的。
      • 回帰係数 : Parameter Estimate
        • 回帰式: a=0.694, b=0.638, c=-112.6
      • ある特定の説明変量が予測に役立っているか?
        • 回帰係数の検定(帰無仮説:係数=0 か?) : Prob>|T| : 小さいと有意
        • 両方とも(身長も胸囲も)有意
        • 「各係数は 0ではない」と言える : 0.01% だから 1% で有意
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか? : もし傾向があると言うことになれば正規性の仮定が崩れている
        • 体重の大きい 3例程度が外れ値と考えられるか要確認 ===> [演習](第8節)
        • ...
      • ...

  7. 特定グループでの解析

    1. プログラム : les1205.sas

       /* Lesson 12-5 */
       /*    File Name = les1205.sas   01/12/06   */
      
      data gakusei;
        infile 'all05be.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;                    : 性別不明は除外
      if shintyou=. | taijyuu=. | kyoui=. then delete;       : 欠損のあるデータは除外
      
      proc print data=gakusei(obs=10);
      run;
      
      proc corr data=gakusei;                                : 相関係数
        where sex='M';                                       : 男性について
      run;                                                   :
                                                             :
      proc reg data=gakusei;                                 : 回帰分析
        model taijyuu=shintyou kyoui;                        :
        where sex='M';                                       : 男性について
        output out=outreg1 predicted=pred1 residual=resid1;  :
      run;                                                   :
      
      proc print data=outreg1(obs=15);
      run;
      
      proc plot data=outreg1;
        where sex='M';                                       : 対象データについて
        plot taijyuu*shintyou;
        plot taijyuu*kyoui;
        plot taijyuu*pred1;
        plot resid1*(pred1 shintyou kyoui taijyuu)/vref=0;          : まとめて記述
      /*
        plot resid1*pred1   /vref=0;
        plot resid1*shintyou/vref=0;
        plot resid1*kyoui   /vref=0;
        plot resid1*taijyuu /vref=0;
      */
      run;
      
      proc univariate data=outreg1 plot normal;
        var resid1;
      run;
      
    2. 出力結果 : les1205.lst
      
                                    SAS システム                             2
                                               17:36 Thursday, January 5, 2006
                                Correlation Analysis
      
            5 'VAR' Variables:  SHINTYOU TAIJYUU  KYOUI    KODUKAI  TSUUWA  
      
                                 Simple Statistics
       
        Variable         N      Mean   Std Dev       Sum   Minimum   Maximum
      
        SHINTYOU        67     172.4    6.0708   11552.1     156.0     185.0
        TAIJYUU         67   64.3985    9.0104    4314.7   46.0000     100.0
        KYOUI           67   88.4925    8.4358    5929.0   56.0000     112.0
        KODUKAI         63   52952.4   57161.2   3336000         0    300000
        TSUUWA          11    7863.6    3899.3   86500.0    2500.0   15000.0
      
                                    SAS システム                             3
                                               17:36 Thursday, January 5, 2006
                                Correlation Analysis
      
           Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
           / Number of Observations  
      
                    SHINTYOU     TAIJYUU       KYOUI     KODUKAI      TSUUWA
      
        SHINTYOU     1.00000     0.41210     0.18212     0.11812     0.15443
                      0.0         0.0005      0.1402      0.3565      0.6503
                          67          67          67          63          11
      
        TAIJYUU      0.41210     1.00000     0.65267    -0.03516     0.35057
                      0.0005      0.0         0.0001      0.7844      0.2905
                          67          67          67          63          11
      
        KYOUI        0.18212     0.65267     1.00000    -0.12039    -0.20651
                      0.1402      0.0001      0.0         0.3473      0.5424
                          67          67          67          63          11
      
        KODUKAI      0.11812    -0.03516    -0.12039     1.00000     0.56460
                      0.3565      0.7844      0.3473      0.0         0.0704
                          63          63          63          63          11
      
        TSUUWA       0.15443     0.35057    -0.20651     0.56460     1.00000
                      0.6503      0.2905      0.5424      0.0704      0.0   
                          11          11          11          11          11
      
                                    SAS システム                             6
                                               17:36 Thursday, January 5, 2006
      Model: MODEL1  
      Dependent Variable: TAIJYUU                                            
                                Analysis of Variance
      
                                Sum of         Mean
       Source          DF      Squares       Square      F Value       Prob>F
      
       Model            2   2759.15218   1379.57609       33.969       0.0001
       Error           64   2599.21767     40.61278
       C Total         66   5358.36985
      
           Root MSE       6.37282     R-square       0.5149
           Dep Mean      64.39851     Adj R-sq       0.4998
           C.V.           9.89591
      
                                    SAS システム                             7
                                               17:36 Thursday, January 5, 2006
                                Parameter Estimates
      
                         Parameter      Standard    T for H0:               
        Variable  DF      Estimate         Error   Parameter=0    Prob > |T|
      
        INTERCEP   1    -69.688001   22.69278666        -3.071        0.0031
        SHINTYOU   1      0.450161    0.13141225         3.426        0.0011
        KYOUI      1      0.638133    0.09457079         6.748        0.0001
      
      
                                    SAS システム                            10
                                               17:36 Thursday, January 5, 2006
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
      TAIJYUU |
          100 +                                               A
              |                              A                        A
              |
           75 +                               A   A A   A  A  AA
              |                         B B A D A A   A C A A     D   A   A A
              |   A           A A   A B A B A D B C A AAA A   A A  AA A
           50 +           A     B         A
              |
              |
           25 +
              --+---------+---------+---------+---------+---------+---------+-
               155       160       165       170       175       180       185
                                          SHINTYOU
      
                                    SAS システム                            11
                                               17:36 Thursday, January 5, 2006
             プロット : TAIJYUU*KYOUI.  凡例: A = 1 OBS, B = 2 OBS, ...
       TAIJYUU |
           100 +                                                    A
               |                                     A    A
               |
            75 +                                 AA   BA  A       A
               |                          A A C BAI BAAB     A
               |                  A   A B C AAD EBF  AA   A
            50 +       A               A  A A
               |
               |
            25 +
               ---+-------+-------+-------+-------+-------+-------+-------+--
                 50      60      70      80      90      100     110     120
                                            KYOUI
      
                                    SAS システム                            12
                                               17:36 Thursday, January 5, 2006
             プロット : TAIJYUU*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
      TAIJYUU |
          100 +                                                   A
              |                                 A          A
              |
           75 +                              B      AAB          A
              |                         BA A EABBBABB AAA
              |               A AA  A AABBABCECBAAA
           50 +   A          A    AA
              |
              |
           25 +
              --+-----------+-----------+-----------+-----------+-----------+-
               40          50          60          70          80          90
                                 Predicted Value of TAIJYUU
      
                                    SAS システム                            13
                                               17:36 Thursday, January 5, 2006
             プロット : RESID1*PRED1.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                                  A                 A
      d     |    A                                        A
      u     |                A A   A   BA A DAA    AA
      a   0 +---------------A---A----A-BB-AADAABB--B-C----------A-------------
      l     |                    AA   A  AABDBBAABB   AA
            |
        -20 +
            ---+-----------+-----------+-----------+-----------+-----------+--
              40          50          60          70          80          90
                                Predicted Value of TAIJYUU
      
                                    SAS システム                            14
                                               17:36 Thursday, January 5, 2006
            プロット : RESID1*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                               A                A
      d     |                            A                           A
      u     |                  A         B A C A B   A B AA
      a   0 +----A-------A-----------A-B---A-C-A-A-A--AC---A-BA--B-A-A---A----
      l     |                A B   A A A B   C A B A A   A     A BA  A     A
            |
        -20 +
            ---+---------+---------+---------+---------+---------+---------+--
              155       160       165       170       175       180       185
                                         SHINTYOU
      
                                    SAS システム                            15
                                               17:36 Thursday, January 5, 2006
             プロット : RESID1*KYOUI.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                                        A               A
      d     |     A                                       A
      u     |                  A      A B  A B  BD    B
      a   0 +-----------------------B-A-B---ABABAF-A-AC---A--------A----------
      l     |                           A B  CBBAF  AAB   A   A
            |
        -20 +
            -+--------+--------+--------+--------+--------+--------+--------+-
            50       60       70       80       90       100      110      120
                                           KYOUI
      
                                    SAS システム                            16
                                               17:36 Thursday, January 5, 2006
            プロット : RESID1*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
            |
      R  40 +
      e     |
      s     |
      i  20 +                                                   A          A
      d     |                A                                   A
      u     |                 A    A A  B AAAC A A  AA
      a   0 +----------A-------A--ADACB-DA-A-CB------A------------------------
      l     |        A    A   CAAB FABABA  A
            |
        -20 +
            ---+---------+---------+---------+---------+---------+---------+--
              40        50        60        70        80        90        100
                                          TAIJYUU
      
                                    SAS システム                            17
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                                      Moments
      
                      N                67  Sum Wgts         67
                      Mean              0  Sum               0
                      Std Dev    6.275515  Variance   39.38209
                      Skewness   1.226471  Kurtosis   1.859485
                      USS        2599.218  CSS        2599.218
                      CV                .  Std Mean   0.766676
                      T:Mean=0          0  Pr>|T|       1.0000
                      Num ^= 0         67  Num > 0          26
                      M(Sign)        -7.5  Pr>=|M|      0.0864
                      Sgn Rank       -140  Pr>=|S|      0.3858
                      W:Normal   0.910467  Pr
      
                                    SAS システム                            20
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                Stem Leaf                        #             Boxplot
                   2 2                           1                0   
                   1 8                           1                0   
                   1 024                         3                |   
                   0 5555677778                 10                |   
                   0 00011233444                11             +--+--+
                  -0 44444333332221111111000    23             *-----*
                  -0 998877766555555555         18             +-----+
                     ----+----+----+----+---              
                 Multiply Stem.Leaf by 10**+1             
      
                                    SAS システム                            21
                                               17:36 Thursday, January 5, 2006
                                Univariate Procedure
      Variable=RESID1        Residual
                                   Normal Probability Plot              
                22.5+                                                 * 
                    |                                             *   ++
                    |                                         *+*+++++  
                 7.5+                                 +*******          
                    |                         +++******                 
                    |                 ************                      
                -7.5+ *   * * *********                                 
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方
      • 単変量毎の相関が有意なのは、身長と体重、体重と胸囲の間。

      • 対象になったのは 67名。
      • 回帰に役立っているか : 役立っている : 0.01% だから 1% で有意
      • 決定係数(R-square)は 51.5%
      • 個々の説明変量が予測に役立っているか?
        • 係数がゼロか? : 定数項も身長も胸囲も有意(1% で有意)
      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 均等に散らばっているか?
        • 傾向はないか? : 傾向があると言うことは正規性の仮定が崩れていること
        • 外れ値? 85Kg より重い 3名程度が吟味対象?

  8. [演習] : 「男性のみ」で、かつ「体重の大きい 3名を除外」して実行してみよ。

  9. 回帰分析における変数選択 :

  10. 次回は、... : 01月19日 13:10

  11. 最終レポート (予告)
    半年を通して学んできた SAS の使い方、および統計手法を、 自分が興味を持ったデータに適用してみて興味深い知見を得る体験をしてもらう。

    1. 対象データ :
      • 自分で収集したデータ。
      • 一つである必要はない。複数でも良い。

    2. 作業内容 :
      1. SAS を使って解析し、興味深い知見を引き出そう。
      2. 以下の点に注意しながらレポートを作成しよう。

      3. 利用するデータ解析手法については、特に制限や指定をしないが、 「多変量解析の手法」を使うとより高度なデータ構造が把握できることがある。
      4. 前回のレポートの反省点を踏まえて作成すること。
      5. 興味を持った点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    3. レポート : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • データ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと
      • 講義全体を通しての感想 : 今後の参考にしたいので

    4. 提出期限 :
      2006年01月31日(火) 16:00まで

    5. 注意 :
      1. 紙で提出する場合は、事務所の受付終了時刻に注意すること。 提出日は事務室の受領印で判断する。
      2. 電子メールで提出する場合に、添付ファイルは使わないこと。 また、提出日時はメールヘッダーから判断する。 受領確認メールを必ず返すのでこれを受け取って提出完了となる。
      3. レポートを受領した者の学籍番号は、 講義の連絡ページ に掲載するので、確認すること。 ただし、2回とも提出したからと言って単位が認定されるわけではない点には注意されたい。
[DIR]講義のホームページへ戻ります