分散分析

統計処理 01 クラス : 第15回目(11/11/99)

前回は、心理学や社会学といった文化系の分野でよく利用される因子分析を紹介した。 今回は、実験や繰り返し測定といった理科系の分野でよく利用されている分散分析を紹介する。

  1. 分散分析(Analysis of Variance, ANOVA)

    実験を行う際には、いろいろと条件(要因)を取り替えて、その実験結果を記録し 変化を捉えていく。実験結果に及ぼす影響に対して、個々の要因がどのように 影響を与えているかには興味のあるところである。

    例えば、実験の結果、172 ページのような 24個のデータが得られたとしよう。 つまり、化合物を生成させる際に、触媒(3水準)と温度(4水準)を変化させ、 12個の状況を用意し、それぞれで2回づつ測定したデータである。
    触媒と温度という2つの要因はどの程度 この化合物の収量(生産量)に影響を与えているのであろうか? より良い条件で化合物を作れば利益や効率も上がるだろうし、 より新しい条件が見つかるかもしれない。

    このような問題に対して、分散分析は有効に機能する。 なお、分散分析は、実験計画法と密接に関係があるので、 より詳しく知りたい場合は、その関連の書籍にも目を通すことを勧める。 また、他にも、大橋靖夫他著、SAS による実験データ解析入門、東大出版会、3800円 等がある。

  2. 1元配置の分散分析(1因子要因実験) : 配布資料 173ページ〜

    1. プログラム : les1501.sas

       /* Lesson 15-1 */
       /*    File Name = les1501.sas   11/11/99   */
      
      data kagou;                         :
        do syokubai=1 to 3;               : 触媒 : 3水準
          do ondo=1 to 4;                 : 温度 : 4水準
            do repeat=1 to 2;             : 繰り返し : 各2回
              input syuuryou @@;          : @@ は1行から複数のデータを読むため
              output;                     : ファイルに出力
            end;                          :
          end;                            :
        end;                              :
        cards;                            :
        18 22   20 22   26 24  30 32      : 各データ(計24個)
        10 13   19 15   22 21  28 26      :
        21 19   21 26   26 21  29 26      :
      ;                                   :
      proc print data=kagou;              : データの表示
      run;                                :
      proc glm data=kagou;                : 分散分析
        class syokubai;                   : 分類変数の指示
        model syuuryou=syokubai;          : 目的変数 = 説明変数(群)
        means syokubai;                   : 各水準毎の平均と標準偏差の表示の指示
      run;                                :
      
    2. 出力結果 : les1501.out
      • 各条件のデータの表示
      • 触媒の水準数と値 : 3 と 1,2,3
      • 分散分析表 : 説明変数が有効に機能しているか? ===> F値
      • 各水準毎の平均と標準偏差の表示

                                    SAS システム                             1
                                            16:57 Wednesday, November 10, 1999
      
                   OBS    SYOKUBAI    ONDO    REPEAT    SYUURYOU
      
                     1        1         1        1         18   
                     2        1         1        2         22   
                     3        1         2        1         20   
                     4        1         2        2         22   
                     5        1         3        1         26   
                     6        1         3        2         24   
                     7        1         4        1         30   
                     8        1         4        2         32   
                     9        2         1        1         10   
                    10        2         1        2         13   
                    11        2         2        1         19   
                    12        2         2        2         15   
                    13        2         3        1         22   
                    14        2         3        2         21   
                    15        2         4        1         28   
                    16        2         4        2         26   
                    17        3         1        1         21   
                    18        3         1        2         19   
                    19        3         2        1         21   
                    20        3         2        2         26   
                    21        3         3        1         26   
                    22        3         3        2         21   
                    23        3         4        1         29   
                    24        3         4        2         26   
      
                                    SAS システム                             3
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             SYOKUBAI      3    1 2 3
      
                      Number of observations in data set = 24
      
      
                                    SAS システム                             4
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                    2     118.75000     59.37500     2.37    0.1183
      
      Error                   21     526.87500     25.08929
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.183930      22.38624       5.0089             22.375
      
      
                                    SAS システム                             5
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500     2.37    0.1183
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500     2.37    0.1183
      
      
                                    SAS システム                             6
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
                    Level of       -----------SYUURYOU----------
                    SYOKUBAI   N       Mean              SD
      
                    1          8     24.2500000       4.83292281
                    2          8     19.2500000       6.27352715
                    3          8     23.6250000       3.54310195
      
    3. 解析結果
      • 触媒が収量に影響を与えているとは言えない。 <=== F 値が小さいから
      • このぐらいの F 値(2.37)なら 11.83% の確率で発生する。
      • 11.83% の確率 = 稀ではない。普通に起ること。何かの要因に起因して起ったとは考えにくい <===> 5% or 1%

  3. 2元配置の分散分析(2因子要因実験) : 配布資料 176ページ〜

    1. プログラム : les1502.sas

       /* Lesson 15-2 */
       /*    File Name = les1502.sas   11/11/99   */
      
      data kagou;
        do syokubai=1 to 3;
          do ondo=1 to 4;
            do repeat=1 to 2;
              input syuuryou @@;
              output;
            end;
          end;
        end;
        cards;
        18 22   20 22   26 24  30 32
        10 13   19 15   22 21  28 26
        21 19   21 26   26 21  29 26
      ;
      proc print data=kagou;
      run;                                           : 
      proc glm data=kagou;                           : 分散分析
        class syokubai ondo;                         : 分類変数の指示
        model syuuryou=syokubai ondo syokubai*ondo;  : 目的変数 = 説明変数群
        means syokubai ondo syokubai*ondo;           : 各水準毎の平均の表示の指示
      run;                                           : 
      
    2. 出力結果 : les1502.out
      • 各条件のデータの表示
      • 触媒の水準数 : 3
      • 温度の水準数 : 4
      • 分散分析表 : 説明変数が(全体として)有効に機能しているか? ===> F値
      • 分散分析表 : 各説明変数が個々で有効に機能しているか? ===> F値
      • 各水準毎の平均の表示

      
                                    SAS システム                             3
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             SYOKUBAI      3    1 2 3
      
                             ONDO          4    1 2 3 4
      
                      Number of observations in data set = 24
      
                                    SAS システム                             4
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                   11     585.12500     53.19318    10.55    0.0001
      
      Error                   12      60.50000      5.04167
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.906292      10.03515       2.2454             22.375
      
                                    SAS システム                             5
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500    11.78    0.0015
      ONDO                     3     414.45833    138.15278    27.40    0.0001
      SYOKUBAI*ONDO            6      51.91667      8.65278     1.72    0.2004
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500    11.78    0.0015
      ONDO                     3     414.45833    138.15278    27.40    0.0001
      SYOKUBAI*ONDO            6      51.91667      8.65278     1.72    0.2004
      
                                    SAS システム                             6
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
                    Level of       -----------SYUURYOU----------
                    SYOKUBAI   N       Mean              SD
      
                    1          8     24.2500000       4.83292281
                    2          8     19.2500000       6.27352715
                    3          8     23.6250000       3.54310195
      
                    Level of       -----------SYUURYOU----------
                    ONDO       N       Mean              SD
      
                    1          6     17.1666667       4.70814896
                    2          6     20.5000000       3.61939221
                    3          6     23.3333333       2.33809039
                    4          6     28.5000000       2.34520788
      
                                    SAS システム                             7
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
              Level of   Level of       -----------SYUURYOU----------
              SYOKUBAI   ONDO       N       Mean              SD
      
              1          1          2     20.0000000       2.82842712
              1          2          2     21.0000000       1.41421356
              1          3          2     25.0000000       1.41421356
              1          4          2     31.0000000       1.41421356
              2          1          2     11.5000000       2.12132034
              2          2          2     17.0000000       2.82842712
              2          3          2     21.5000000       0.70710678
              2          4          2     27.0000000       1.41421356
              3          1          2     20.0000000       1.41421356
              3          2          2     23.5000000       3.53553391
              3          3          2     23.5000000       3.53553391
              3          4          2     27.5000000       2.12132034
      

    3. 解析結果
      • 触媒と温度が収量に影響を与えているとは言える。 <=== F 値が大きいから
      • このぐらいの F 値(10.55)なら 0.01% の確率でしか発生しない。
      • 0.01% の確率 = 稀である。偶然とは言えない。何かの要因に起因して起ったと考えるのが妥当 <===> 5% or 1%
      • また、各要因(触媒、温度、触媒*温度)が個々で収量に影響を与えているかどうかは、
        1. 触媒(主効果) : 0.15% の確率で発生する。: 影響を与えている
        2. 温度(主効果) : 0.01% の確率で発生する。: 強く影響を与えている
        3. 触媒*温度(交互作用) : 20.04% の確率で発生する。: 影響を与えていない

  4. 演習 :「温度」の1元配置の分散分析を行え。

    1. プログラム : les1503.sas

    2. 出力結果 : les1503.out

    3. 解析結果
      • 温度が収量に影響を与えているとは言える。 <=== F 値が大きいから
      • このぐらいの F 値(11.95)なら 0.01% の確率でしか発生しない。 強く影響していることが判る。
      • 0.01% の確率 = 稀である。偶然とは言えない。何かの要因に起因して起ったと考えるのが妥当。

  5. 多重比較 : 配布資料 185ページ〜

    1. プログラム : les1504.sas

       /* Lesson 15-4 */
       /*    File Name = les1504.sas   11/11/99   */
      
      data kagou;
        do syokubai=1 to 3;
          do ondo=1 to 4;
            do repeat=1 to 2;
              input syuuryou @@;
              output;
            end;
          end;
        end;
        cards;
        18 22   20 22   26 24  30 32
        10 13   19 15   22 21  28 26
        21 19   21 26   26 21  29 26
      ;
      proc print data=kagou;
      run;                                :
      proc glm data=kagou;                : 分散分析
        class ondo;                       : 温度について
        model syuuryou=ondo;              :
        means ondo/tukey cldiff nosort;   : 多重比較(Tukey の方法)の指示
      run;                                : 
      
    2. 出力結果 : les1504.out
      • 水準内の対毎の、差および上下の信頼限界を表示し、 有意に差がひらいているかを判定している

      
                                    SAS システム                             3
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             ONDO          4    1 2 3 4
      
                      Number of observations in data set = 24
      
                                    SAS システム                             4
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                    3     414.45833    138.15278    11.95    0.0001
      
      Error                   20     231.16667     11.55833
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.641949      15.19444       3.3998             22.375
      
                                    SAS システム                             5
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      ONDO                     3     414.45833    138.15278    11.95    0.0001
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      ONDO                     3     414.45833    138.15278    11.95    0.0001
      
                                    SAS システム                             6
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
              TUKEY のスチューデント範囲 (HSD) 検定 - 変数 : SYUURYOU
      
            NOTE:  この検定法はタイプ I の実験(全体)誤差率を 
                  調整しています.
      
                 アルファ = 0.05  信頼 = 0.95  DF= 20  MSE=11.55833
                        臨界値 : スチューデント化範囲 = 3.958
                              最小有意差 (MSD)= 5.4939
      
                 0.05 レベル  で有意な比較は '***' で示しています. 
      
                                    SAS システム                             7
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
                                  同時                    同時   
                                  下側        平均        上側 
                   ONDO           信頼          の        信頼  
                比較               限界         差         限界
      
               1    - 2          -8.827      -3.333       2.161
               1    - 3         -11.661      -6.167      -0.673   ***
               1    - 4         -16.827     -11.333      -5.839   ***
      
               2    - 1          -2.161       3.333       8.827
               2    - 3          -8.327      -2.833       2.661
               2    - 4         -13.494      -8.000      -2.506   ***
      
               3    - 1           0.673       6.167      11.661   ***
      
                                    SAS システム                             8
                                            16:57 Wednesday, November 10, 1999
      
                          General Linear Models Procedure
      
                                  同時                    同時   
                                  下側        平均        上側 
                   ONDO           信頼          の        信頼  
                比較               限界         差         限界
      
               3    - 2          -2.661       2.833       8.327
               3    - 4         -10.661      -5.167       0.327
      
               4    - 1           5.839      11.333      16.827   ***
               4    - 2           2.506       8.000      13.494   ***
               4    - 3          -0.327       5.167      10.661
      

    3. 解析結果
      • 温度内の水準間では、(1-3)、(1-4)、(2-4) に差があると認められた。 温度は低い(100度)よりは高い(130度)方が収量が多くなることが判る。
      • 各水準間の差や、信頼限界が表示されている。

  6. 演習 : 「触媒(1元配置)」、「触媒*温度(2元配置)」について、多重比較を行え。

    1. プログラム : les1505.sas

    2. 出力結果 : les1505.out

    3. 解析結果
      • 「触媒」については、差の認められる水準間はない。
      • 「触媒*温度」については、主効果間には差が認められたが、交互作用間には認められない。

  7. 次回以降は、... :

[DIR]講義のホームページへ戻ります