分散分析

統計処理 01 クラス : 第18回目(11/16/00)

前回は、心理学や社会学といった文化系の分野でよく利用される因子分析を紹介した。 今回は、実験や繰り返し測定といった理科系の分野でよく利用されている分散分析を紹介する。

  1. 分散分析(Analysis of Variance, ANOVA)

    実験を行う際には、いろいろと条件(要因)を取り替えて、その実験結果を記録し 変化を捉えていく。実験結果に及ぼす影響に対して、個々の要因がどのように 影響を与えているかには興味のあるところである。

    例えば、実験の結果、172 ページのような 24個のデータが得られたとしよう。 つまり、化合物を生成させる際に、触媒(3水準)と温度(4水準)を変化させ、 12個の状況を用意し、それぞれで2回づつ測定したデータである。
    触媒と温度という2つの要因はどの程度 この化合物の収量(生産量)に影響を与えているのであろうか? より良い条件で化合物を作れば利益や効率も上がるだろうし、 より新しい条件が見つかるかもしれない。

    このような問題に対して、分散分析は有効に機能する。 なお、分散分析は、実験計画法と密接に関係があるので、 より詳しく知りたい場合は、その関連の書籍にも目を通すことを勧める。 また、他にも、大橋靖夫他著、SAS による実験データ解析入門、東大出版会、3800円 等がある。

  2. 1元配置の分散分析(1因子要因実験) : 配布資料 173ページ〜

    1. プログラム : les1801.sas

       /* Lesson 18-1 */
       /*    File Name = les1801.sas   11/16/00   */
      
      data kagou;                         :
        do syokubai=1 to 3;               : 触媒 : 3水準
          do ondo=1 to 4;                 : 温度 : 4水準
            do repeat=1 to 2;             : 繰り返し : 各2回
              input syuuryou @@;          : @@ は1行から複数のデータを読むため
              output;                     : ファイルに出力
            end;                          :
          end;                            :
        end;                              :
        cards;                            :
        18 22   20 22   26 24  30 32      : 各データ(計24個)
        10 13   19 15   22 21  28 26      :
        21 19   21 26   26 21  29 26      :
      ;                                   :
      proc print data=kagou;              : データの表示
      run;                                :
      proc glm data=kagou;                : 分散分析
        class syokubai;                   : 分類変数の指示
        model syuuryou=syokubai;          : 目的変数 = 説明変数(群)
        means syokubai;                   : 各水準毎の平均と標準偏差の表示の指示
      run;                                :
      
    2. 出力結果 : les1801.lst
                                    SAS システム                             1
                                              15:00 Thursday, November 2, 2000
      
                   OBS    SYOKUBAI    ONDO    REPEAT    SYUURYOU
      
                     1        1         1        1         18   
                     2        1         1        2         22   
                     3        1         2        1         20   
                     4        1         2        2         22   
                     5        1         3        1         26   
                     6        1         3        2         24   
                     7        1         4        1         30   
                     8        1         4        2         32   
                     9        2         1        1         10   
                    10        2         1        2         13   
                    11        2         2        1         19   
                    12        2         2        2         15   
                    13        2         3        1         22   
                    14        2         3        2         21   
                    15        2         4        1         28   
                    16        2         4        2         26   
                    17        3         1        1         21   
                    18        3         1        2         19   
                    19        3         2        1         21   
                    20        3         2        2         26   
                    21        3         3        1         26   
                    22        3         3        2         21   
                    23        3         4        1         29   
                    24        3         4        2         26   
      
                                    SAS システム                             3
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             SYOKUBAI      3    1 2 3
      
                      Number of observations in data set = 24
      
      
                                    SAS システム                             4
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                    2     118.75000     59.37500     2.37    0.1183
      
      Error                   21     526.87500     25.08929
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.183930      22.38624       5.0089             22.375
      
      
                                    SAS システム                             5
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500     2.37    0.1183
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500     2.37    0.1183
      
      
                                    SAS システム                             6
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
                    Level of       -----------SYUURYOU----------
                    SYOKUBAI   N       Mean              SD
      
                    1          8     24.2500000       4.83292281
                    2          8     19.2500000       6.27352715
                    3          8     23.6250000       3.54310195
      
    3. 解析結果
      • 各条件のデータの表示
      • 触媒の水準数と値 : 3 と 1,2,3
      • 分散分析表 : 説明変数が有効に機能しているか? ===> F値
      • 各水準毎の平均と標準偏差の表示

      • 触媒が収量に影響を与えているとは言えない。 <=== F 値が小さいから
      • このぐらいの F 値(2.37)なら 11.83% の確率で発生する。
      • 11.83% の確率 = 稀ではない。普通に起ること。 何かの要因に起因して起ったとは考えにくい <===> 5% or 1%

  3. 2元配置の分散分析(2因子要因実験) : 配布資料 176ページ〜

    1. プログラム : les1802.sas

       /* Lesson 18-2 */
       /*    File Name = les1802.sas   11/16/00   */
      
      data kagou;
        do syokubai=1 to 3;
          do ondo=1 to 4;
            do repeat=1 to 2;
              input syuuryou @@;
              output;
            end;
          end;
        end;
        cards;
        18 22   20 22   26 24  30 32
        10 13   19 15   22 21  28 26
        21 19   21 26   26 21  29 26
      ;
      proc print data=kagou;
      run;                                           : 
      proc glm data=kagou;                           : 分散分析
        class syokubai ondo;                         : 分類変数の指示
        model syuuryou=syokubai ondo syokubai*ondo;  : 目的変数 = 説明変数群
        means syokubai ondo syokubai*ondo;           : 各水準毎の平均の表示の指示
      run;                                           : 
      
    2. 出力結果 : les1802.lst
      
                                    SAS システム                             3
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             SYOKUBAI      3    1 2 3
      
                             ONDO          4    1 2 3 4
      
                      Number of observations in data set = 24
      
                                    SAS システム                             4
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                   11     585.12500     53.19318    10.55    0.0001
      
      Error                   12      60.50000      5.04167
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.906292      10.03515       2.2454             22.375
      
                                    SAS システム                             5
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500    11.78    0.0015
      ONDO                     3     414.45833    138.15278    27.40    0.0001
      SYOKUBAI*ONDO            6      51.91667      8.65278     1.72    0.2004
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500    11.78    0.0015
      ONDO                     3     414.45833    138.15278    27.40    0.0001
      SYOKUBAI*ONDO            6      51.91667      8.65278     1.72    0.2004
      
                                    SAS システム                             6
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
                    Level of       -----------SYUURYOU----------
                    SYOKUBAI   N       Mean              SD
      
                    1          8     24.2500000       4.83292281
                    2          8     19.2500000       6.27352715
                    3          8     23.6250000       3.54310195
      
                    Level of       -----------SYUURYOU----------
                    ONDO       N       Mean              SD
      
                    1          6     17.1666667       4.70814896
                    2          6     20.5000000       3.61939221
                    3          6     23.3333333       2.33809039
                    4          6     28.5000000       2.34520788
      
                                    SAS システム                             7
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
              Level of   Level of       -----------SYUURYOU----------
              SYOKUBAI   ONDO       N       Mean              SD
      
              1          1          2     20.0000000       2.82842712
              1          2          2     21.0000000       1.41421356
              1          3          2     25.0000000       1.41421356
              1          4          2     31.0000000       1.41421356
              2          1          2     11.5000000       2.12132034
              2          2          2     17.0000000       2.82842712
              2          3          2     21.5000000       0.70710678
              2          4          2     27.0000000       1.41421356
              3          1          2     20.0000000       1.41421356
              3          2          2     23.5000000       3.53553391
              3          3          2     23.5000000       3.53553391
              3          4          2     27.5000000       2.12132034
      

    3. 解析結果
      • 各条件のデータの表示
      • 触媒の水準数 : 3
      • 温度の水準数 : 4
      • 分散分析表 : 説明変数が(全体として)有効に機能しているか? ===> F値
      • 分散分析表 : 各説明変数が個々で有効に機能しているか? ===> F値
      • 各水準毎の平均の表示

      • 触媒と温度が収量に影響を与えているとは言える。 <=== F 値が大きいから
      • このぐらいの F 値(10.55)なら 0.01% の確率でしか発生しない。
      • 0.01% の確率 = 稀である。偶然とは言えない。 何かの要因に起因して起ったと考えるのが妥当 <===> 5% or 1%
      • また、各要因(触媒、温度、触媒*温度)が個々で収量に影響を与えているかどうかは、
        1. 触媒(主効果) : 0.15% の確率で発生する。: 影響を与えている
        2. 温度(主効果) : 0.01% の確率で発生する。: 強く影響を与えている
        3. 触媒*温度(交互作用) : 20.04% の確率で発生する。: 影響を与えていない

  4. 演習 :「温度」の1元配置の分散分析を行え。
    1. プログラム : les1803.sas
    2. 出力結果 : les1803.lst
    3. 解析結果
      • 温度が収量に影響を与えているとは言える。 <=== F 値が大きいから
      • このぐらいの F 値(11.95)なら 0.01% の確率でしか発生しない。 強く影響していることが判る。
      • 0.01% の確率 = 稀である。偶然とは言えない。何かの要因に起因して起ったと考えるのが妥当。

  5. 多重比較 : 配布資料 185ページ〜

    1. プログラム : les1804.sas

       /* Lesson 18-4 */
       /*    File Name = les1804.sas   11/16/00   */
      
      data kagou;
        do syokubai=1 to 3;
          do ondo=1 to 4;
            do repeat=1 to 2;
              input syuuryou @@;
              output;
            end;
          end;
        end;
        cards;
        18 22   20 22   26 24  30 32
        10 13   19 15   22 21  28 26
        21 19   21 26   26 21  29 26
      ;
      proc print data=kagou;
      run;                                :
      proc glm data=kagou;                : 分散分析
        class ondo;                       : 温度について
        model syuuryou=ondo;              :
        means ondo/tukey cldiff nosort;   : 多重比較(Tukey の方法)の指示
      run;                                : 
      
    2. 出力結果 : les1804.lst
      
                                    SAS システム                             3
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             ONDO          4    1 2 3 4
      
                      Number of observations in data set = 24
      
                                    SAS システム                             4
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                    3     414.45833    138.15278    11.95    0.0001
      
      Error                   20     231.16667     11.55833
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.641949      15.19444       3.3998             22.375
      
                                    SAS システム                             5
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      ONDO                     3     414.45833    138.15278    11.95    0.0001
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      ONDO                     3     414.45833    138.15278    11.95    0.0001
      
                                    SAS システム                             6
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
              TUKEY のスチューデント範囲 (HSD) 検定 - 変数 : SYUURYOU
      
            NOTE:  この検定法はタイプ I の実験(全体)誤差率を 
                  調整しています.
      
                 アルファ = 0.05  信頼 = 0.95  DF= 20  MSE=11.55833
                        臨界値 : スチューデント化範囲 = 3.958
                              最小有意差 (MSD)= 5.4939
      
                 0.05 レベル  で有意な比較は '***' で示しています. 
      
                                    SAS システム                             7
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
                                  同時                    同時   
                                  下側        平均        上側 
                   ONDO           信頼          の        信頼  
                比較               限界         差         限界
      
               1    - 2          -8.827      -3.333       2.161
               1    - 3         -11.661      -6.167      -0.673   ***
               1    - 4         -16.827     -11.333      -5.839   ***
      
               2    - 1          -2.161       3.333       8.827
               2    - 3          -8.327      -2.833       2.661
               2    - 4         -13.494      -8.000      -2.506   ***
      
               3    - 1           0.673       6.167      11.661   ***
      
                                    SAS システム                             8
                                              15:00 Thursday, November 2, 2000
      
                          General Linear Models Procedure
      
                                  同時                    同時   
                                  下側        平均        上側 
                   ONDO           信頼          の        信頼  
                比較               限界         差         限界
      
               3    - 2          -2.661       2.833       8.327
               3    - 4         -10.661      -5.167       0.327
      
               4    - 1           5.839      11.333      16.827   ***
               4    - 2           2.506       8.000      13.494   ***
               4    - 3          -0.327       5.167      10.661
      

    3. 解析結果
      • 水準内の対毎の、差および上下の信頼限界を表示し、 有意に差が開いているかを判定している
      • 温度内の水準間では、(1-3)、(1-4)、(2-4) に差があると認められた。 温度は低い(100度)よりは高い(130度)方が収量が多くなることが判る。
      • 各水準間の差や、信頼限界が表示されている。

  6. 演習 : 「触媒(1元配置)」、「触媒*温度(2元配置)」について、多重比較を行え。
    1. プログラム : les1805.sas
    2. 出力結果 : les1805.lst
    3. 解析結果
      • 「触媒」については、差の認められる水準間はない。
      • 「触媒*温度」については、主効果間には差が認められたが、交互作用間には認められない。

  7. 次回以降は、... :

  8. いくつかのデータで実践
    ここまでに学んできた手法を未知のいくつかのデータに適用してみて 興味深い知見を得る体験をしてもらう。

    1. 対象データ :
      • 配布資料は「A Handbook of Small Data Sets (D.J.Hand, F.Daly, A.D.Lunn, K.J.McConway and E.Ostrowski, 1994, Chapman & Hall)」に掲載されている 510 のデータの中から、 比較的解析しやすいであろうと判断した 24 のデータを集録したものである。
      • データについての最初のページ、および、11枚目のページに、 どのようなデータが選ばれているかの一覧があり、 左から「番号」、「表題」が、右端には「ファイル名」が表示されている。 その次ページから、「番号」の順に、個々の「データの説明」と「数値」が 列挙されている。

      • なお、データの「数値」をいちいち入力するのは大変であろうから、C ルームの 「J:\コンピュータによる統計処理01(林 篤裕)\small_data\」 というディレクトリにファイルを保存しておく。適宜転送して利用して もかまわない。なお、その時の「ファイル名」は前述の最初のページの右端に 記載されているものが使われている。

    2. 作業内容 :
      1. 各自でこれらデータの説明を読んで、おもしろいと感じる データを見つけよう。
      2. そのデータについて、SAS を使って解析し、興味深い知見を引き出そう。
      3. 以下の点に注意しながらレポートを作成しよう。

      4. 解析対象とするデータの数は、最低2つとする(上限は設けない)。 1つだけではダメ
      5. 利用するデータ解析手法として「多変量解析の手法」を必ず1回は使うこと。 <=== 特に注意 : これが含まれていないと提出したと見なさない
      6. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    3. 参考 :
      1. 計算機が使えるようになった現在、データのサイズ(数値の量) は解析の難易度とは無関係である。このようなことに捕らわれずに自分の 興味に従って自由にデータを選択してほしい。
      2. また、多変量解析手法(重回帰分析、主成分分析、因子分析等)の場合、 変量数やケース数が少ないと、興味ある知見が得られないことが多い。
      3. 提示されている変量全てを用いて解析するだけでなく、一部の変量だけを使って 解析してみるといった、工夫も考えられる。

    4. レポート : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • 使ったデータの番号、表題およびデータ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

    5. 提出期限 :
      2000年12月14日(木) 17:50まで

      注意1: 紙で提出する場合は、事務所の受付終了時刻に注意すること。提出日は事務室の受領印で判断する。
      注意2: 電子メールでの場合は、添付ファイルは使わないこと。また、提出日時はメールヘッダーから判断する。

[DIR]講義のホームページへ戻ります