分散分析と質問受付会

統計解析 01 クラス : 第15回目(07/24/03)

因子分析は、心理学や社会学といった文化系の分野で利用されることの多い 統計手法であった。 一方、今回紹介する分散分析は、実験や製品試作の繰り返し測定といった 理科系の分野でよく利用されている手法である。

  1. 分散分析(Analysis of Variance, ANOVA)
    実験を行う際には、いろいろと条件(要因)を取り替えて、それぞれの実験結果を記録し 変化を捉えていく。実験結果に及ぼす影響に対して、個々の要因がどのように 影響を与えているかに興味があるからである。
    例えば、実験の結果として、172 ページのような 24個のデータが得られたとしよう。 つまり、化合物を生成させる際に、触媒(3水準)と温度(4水準)を変化させ、 12個の状況を用意し、それぞれで 2回づつ測定した生産量のデータである。
    触媒と温度という 2つの要因はどの程度、 この化合物の生産量(収量)に影響を与えているのであろうか? より良い条件で化合物を作れば利益や効率も上がるだろうし、 より新しい条件が見つかるかもしれない。
    このような問題に対して、分散分析は有効に機能する。 なお、分散分析は、実験計画法と密接に関係があるので、 より詳しく知りたい場合は、その関連の書籍にも目を通すことを勧める。 また、他にも、大橋靖夫他著、SAS による実験データ解析入門、東大出版会、3800円 等がある。

  2. 1元配置の分散分析(1因子要因実験) : 配布資料 173ページ〜

    1. プログラム : les1501.sas

       /* Lesson 15-1 */
       /*    File Name = les1501.sas   07/24/03   */
      
      data kagou;                         :
        do syokubai=1 to 3;               : 触媒 : 3水準
          do ondo=1 to 4;                 : 温度 : 4水準
            do repeat=1 to 2;             : 繰り返し : 各2回
              input syuuryou @@;          : @@ は1行から複数のデータを読むため
              output;                     : データセットに出力
            end;                          :
          end;                            :
        end;                              :
        cards;                            :
        18 22   20 22   26 24   30 32     : 各データ (計24個)
        10 13   19 15   22 21   28 26     :
        21 19   21 26   26 21   29 26     :
      ;                                   :
      proc print data=kagou;              : データの表示
      run;                                :
      proc glm data=kagou;                : 分散分析
        class syokubai;                   : 分類変数の指示
        model syuuryou=syokubai;          : 目的変数 = 説明変数(群)
        means syokubai;                   : 各水準毎の平均と標準偏差の表示の指示
      run;                                :
      
    2. 出力結果 : les1501.lst
                                    SAS システム                             1
                                             12:10 Thursday, November 21, 2002
      
                   OBS    SYOKUBAI    ONDO    REPEAT    SYUURYOU
      
                     1        1         1        1         18   
                     2        1         1        2         22   
                     3        1         2        1         20   
                     4        1         2        2         22   
                     5        1         3        1         26   
                     6        1         3        2         24   
                     7        1         4        1         30   
                     8        1         4        2         32   
                     9        2         1        1         10   
                    10        2         1        2         13   
                    11        2         2        1         19   
                    12        2         2        2         15   
                    13        2         3        1         22   
                    14        2         3        2         21   
                    15        2         4        1         28   
                    16        2         4        2         26   
                    17        3         1        1         21   
                    18        3         1        2         19   
                    19        3         2        1         21   
                    20        3         2        2         26   
                    21        3         3        1         26   
                    22        3         3        2         21   
                    23        3         4        1         29   
                    24        3         4        2         26   
      
                                    SAS システム                             3
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             SYOKUBAI      3    1 2 3
      
                      Number of observations in data set = 24
      
                                    SAS システム                             4
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                    2     118.75000     59.37500     2.37    0.1183
      
      Error                   21     526.87500     25.08929
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.183930      22.38624       5.0089             22.375
      
                                    SAS システム                             5
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500     2.37    0.1183
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500     2.37    0.1183
      
                                    SAS システム                             6
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
                    Level of       -----------SYUURYOU----------
                    SYOKUBAI   N       Mean              SD
      
                    1          8     24.2500000       4.83292281
                    2          8     19.2500000       6.27352715
                    3          8     23.6250000       3.54310195
      
    3. 解析結果
      • 各条件のデータの表示
      • 触媒の水準数(Levels)と値(Values) : 3 と 1,2,3
      • 分散分析表 : 説明変数が有効に機能しているか? ===> F値
      • 各水準毎の平均と標準偏差の表示

      • 触媒が収量に影響を与えているとは言えない。 <=== F値が小さいから(発生する確率が大きいから)
      • このぐらいの F値(2.37)なら 11.83% の確率で発生する。
      • 11.83% の確率 = 稀ではない。普通に起ること。 何かの要因に起因して起ったとは考えにくい <===> 5% or 1%

  3. 2元配置の分散分析(2因子要因実験) : 配布資料 176ページ〜

    1. プログラム : les1502.sas

       /* Lesson 15-2 */
       /*    File Name = les1502.sas   07/24/03   */
      
      data kagou;
        do syokubai=1 to 3;
          do ondo=1 to 4;
            do repeat=1 to 2;
              input syuuryou @@;
              output;
            end;
          end;
        end;
        cards;
        18 22   20 22   26 24  30 32
        10 13   19 15   22 21  28 26
        21 19   21 26   26 21  29 26
      ;
      proc print data=kagou;
      run;                                           : 
      proc glm data=kagou;                           : 分散分析
        class syokubai ondo;                         : 分類変数の指示
        model syuuryou=syokubai ondo syokubai*ondo;  : 目的変数 = 説明変数群
        means syokubai ondo syokubai*ondo;           : 各水準毎の平均の表示の指示
      run;                                           : 
      
    2. 出力結果 : les1502.lst
      
                                    SAS システム                             3
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             SYOKUBAI      3    1 2 3
      
                             ONDO          4    1 2 3 4
      
                      Number of observations in data set = 24
      
                                    SAS システム                             4
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                   11     585.12500     53.19318    10.55    0.0001
      
      Error                   12      60.50000      5.04167
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.906292      10.03515       2.2454             22.375
      
                                    SAS システム                             5
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500    11.78    0.0015
      ONDO                     3     414.45833    138.15278    27.40    0.0001
      SYOKUBAI*ONDO            6      51.91667      8.65278     1.72    0.2004
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      SYOKUBAI                 2     118.75000     59.37500    11.78    0.0015
      ONDO                     3     414.45833    138.15278    27.40    0.0001
      SYOKUBAI*ONDO            6      51.91667      8.65278     1.72    0.2004
      
                                    SAS システム                             6
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
                    Level of       -----------SYUURYOU----------
                    SYOKUBAI   N       Mean              SD
      
                    1          8     24.2500000       4.83292281
                    2          8     19.2500000       6.27352715
                    3          8     23.6250000       3.54310195
      
                    Level of       -----------SYUURYOU----------
                    ONDO       N       Mean              SD
      
                    1          6     17.1666667       4.70814896
                    2          6     20.5000000       3.61939221
                    3          6     23.3333333       2.33809039
                    4          6     28.5000000       2.34520788
      
                                    SAS システム                             7
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
              Level of   Level of       -----------SYUURYOU----------
              SYOKUBAI   ONDO       N       Mean              SD
      
              1          1          2     20.0000000       2.82842712
              1          2          2     21.0000000       1.41421356
              1          3          2     25.0000000       1.41421356
              1          4          2     31.0000000       1.41421356
              2          1          2     11.5000000       2.12132034
              2          2          2     17.0000000       2.82842712
              2          3          2     21.5000000       0.70710678
              2          4          2     27.0000000       1.41421356
              3          1          2     20.0000000       1.41421356
              3          2          2     23.5000000       3.53553391
              3          3          2     23.5000000       3.53553391
              3          4          2     27.5000000       2.12132034
      

    3. 解析結果
      • 各条件のデータの表示
      • 触媒の水準数 : 3
      • 温度の水準数 : 4
      • 分散分析表 : 説明変数が(全体として)有効に機能しているか? ===> F値
      • 分散分析表 : 各説明変数が個々で有効に機能しているか? ===> F値
      • 各水準毎の平均の表示

      • 触媒と温度が収量に影響を与えているとは言える。 <=== F値が大きいから
      • このぐらいの F値(10.55)なら 0.01% の確率でしか発生しない。
      • 0.01% の確率 = 稀である。偶然とは言えない。 何かの要因に起因して起ったと考えるのが妥当 <===> 5% or 1%
      • また、各要因(触媒、温度、触媒*温度)が個々で収量に影響を与えているかどうかは、
        1. 触媒(主効果) : 0.15% の確率で発生する。: 影響を与えている
        2. 温度(主効果) : 0.01% の確率で発生する。: 強く影響を与えている
        3. 触媒*温度(交互作用) : 20.04% の確率で発生する。: 影響を与えていない

  4. 演習 :「温度」の1元配置の分散分析を行え。
    1. プログラム : les1503.sas
    2. 出力結果 : les1503.lst
    3. 解析結果
      • 温度が収量に影響を与えているとは言える。 <=== F値が大きいから
      • このぐらいの F値(11.95)なら 0.01% の確率でしか発生しない。 強く影響していることが判る。
      • 0.01% の確率 = 稀である。偶然とは言えない。何かの要因に起因して起ったと考えるのが妥当。

  5. 多重比較 : 配布資料 185ページ〜

    1. プログラム : les1504.sas

       /* Lesson 15-4 */
       /*    File Name = les1504.sas   07/24/03   */
      
      data kagou;
        do syokubai=1 to 3;
          do ondo=1 to 4;
            do repeat=1 to 2;
              input syuuryou @@;
              output;
            end;
          end;
        end;
        cards;
        18 22   20 22   26 24  30 32
        10 13   19 15   22 21  28 26
        21 19   21 26   26 21  29 26
      ;
      proc print data=kagou;
      run;                                :
      proc glm data=kagou;                : 分散分析
        class ondo;                       : 温度について
        model syuuryou=ondo;              :
        means ondo/tukey cldiff nosort;   : 多重比較(Tukey の方法)の指示
      run;                                : 
      
    2. 出力結果 : les1504.lst
      
                                    SAS システム                             3
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
                              Class Level Information
      
                             Class    Levels    Values
      
                             ONDO          4    1 2 3 4
      
                      Number of observations in data set = 24
      
                                    SAS システム                             4
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
                                        Sum of         Mean
      Source                  DF       Squares       Square  F Value    Pr > F
      
      Model                    3     414.45833    138.15278    11.95    0.0001
      
      Error                   20     231.16667     11.55833
      
      Corrected Total         23     645.62500
      
                        R-Square          C.V.     Root MSE      SYUURYOU Mean
      
                        0.641949      15.19444       3.3998             22.375
      
                                    SAS システム                             5
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
      Dependent Variable: SYUURYOU   
      
      Source                  DF     Type I SS  Mean Square  F Value    Pr > F
      
      ONDO                     3     414.45833    138.15278    11.95    0.0001
      
      Source                  DF   Type III SS  Mean Square  F Value    Pr > F
      
      ONDO                     3     414.45833    138.15278    11.95    0.0001
      
                                    SAS システム                             6
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
              TUKEY のスチューデント範囲 (HSD) 検定 - 変数 : SYUURYOU
      
            NOTE:  この検定法はタイプ I の実験(全体)誤差率を 
                  調整しています.
      
                 アルファ = 0.05  信頼 = 0.95  DF= 20  MSE=11.55833
                        臨界値 : スチューデント化範囲 = 3.958
                              最小有意差 (MSD)= 5.4939
      
                 0.05 レベル  で有意な比較は '***' で示しています. 
      
                                    SAS システム                             7
                                             12:10 Thursday, November 21, 2002
      
                          General Linear Models Procedure
      
                                  同時                    同時   
                                  下側        平均        上側 
                   ONDO           信頼          の        信頼  
                比較               限界         差         限界
      
               1    - 2          -8.827      -3.333       2.161
               1    - 3         -11.661      -6.167      -0.673   ***
               1    - 4         -16.827     -11.333      -5.839   ***
      
               2    - 1          -2.161       3.333       8.827
               2    - 3          -8.327      -2.833       2.661
               2    - 4         -13.494      -8.000      -2.506   ***
      
               3    - 1           0.673       6.167      11.661   ***
               3    - 2          -2.661       2.833       8.327
               3    - 4         -10.661      -5.167       0.327
      
               4    - 1           5.839      11.333      16.827   ***
               4    - 2           2.506       8.000      13.494   ***
               4    - 3          -0.327       5.167      10.661
      

    3. 解析結果
      • 水準内の対毎の、差および上下の信頼限界を表示し、 有意に差が開いているかを判定している
      • 温度内の水準間では、(1-3)、(1-4)、(2-4) に差があると認められた。 温度は低い(100度)よりは高い(130度)方が収量が多くなることが判る。
      • 各水準間の差や、信頼限界が表示されている。
      • 有意のレベルを「*マーク」で示している。

  6. 演習 : 「触媒(1元配置)」、「触媒*温度(2元配置)」について、多重比較を行え。
    1. プログラム : les1505.sas
    2. 出力結果 : les1505.lst
    3. 解析結果(一部)
      • 「触媒」については、差の認められる水準間はない。
      • 「触媒*温度」については、主効果間には差が認められたが、交互作用間には認められない。

  7. 解析例1 : 対象 : What Makes a Good Teacher Story
    [データの内容] 学生にとって"良い教員"の資質を調査したデータ

    1. 解析主旨 : 単語の頻度を求める。
    2. データ : teacher_word.txtteacher_word_low.txt : エディタで分割。コマンドで小文字化(UNIX では「tr A-Z a-z < infile > outfile」)。
    3. プログラム : les1521.sas
    4. 出力結果 : les1521.lst
    5. 解説 : 英語の場合はデリミタ(空白等の区切り記号)で分割することによって、 単語の頻度を簡単に算出できる。その場合、全て小文字に置換することも 場合によっては必要となる。

    1. 解析主旨 : 良い講義を行うための要点を洗い出す。 データの読み込み。 回答項目の平均や、降順に並べてみて傾向を把握する。 散布図を描いてみる。
    2. データ : teacher.prn : Excel で固定長に加工。探しやすくするために先頭に番号を付けた。
    3. プログラム : les1522.sas
    4. 出力結果 : les1522.lst
    5. 解説 : 要求の高かったものから順に並べると、項目の順序に意味があることが 解るかもしれない。また、元々が 2次元のデータであるので、 これらをプロットすることによって、外れている項目が見えてくるかもしれない。

    1. 解析主旨 : 良い講義を行うための要点を洗い出す。 主成分分析と因子分析。
    2. プログラム : les1523.sas
    3. 出力結果 : les1523.lst
    4. 解説 : 2次元のデータなので、多変量解析の手法を用いるのは不適と言える (予想される結果ではあるが)。

  8. 解析例2 : 対象 : Magazine Ads Readability
    [データの内容] 雑誌に掲載されている広告に用いられている単語数、センテンス数、音節数を調査したデータ

    1. 解析主旨 : 各変量の平均等を算出する。また、グループごとにも算出する。 雑誌の特徴を比較するために、1元配置の分散分析を行う。多重比較も行う。
    2. プログラム : les1531.sas
    3. 出力結果 : les1531.lst
    4. 解説 : WDS において、MAG 間の一部(1-3, 1-6, 1-7, 1-8)に差があることが判る。他の変量には差が認められない。

    1. 解析主旨 : 2元配置の分散分析を行う。
    2. プログラム : les1532.sas
    3. 出力結果 : les1532.lst
    4. 解説 : MAG と GROUP が関連しているので、2元配置とは言えないが、 敢えて計算してみた。当然ながら、どれの間も差がない。

    1. 解析主旨 : 重回帰分析を行う。
    2. プログラム : les1533.sas
    3. 出力結果 : les1533.lst
    4. 解説 : 本来は重回帰分析を適用すべきモデルではない。 一応適応してみたが、回帰の有意性がないことが判るので、残差分析はしていない。

  9. 解析例3 : 対象 : Protein Consumption in Europe Story
    [データの内容] ヨーロッパ各国の蛋白質の摂取量のデータ

    1. 解析主旨 : 摂取量の傾向をつかむために主成分分析と因子分析を行う。
    2. プログラム : les1541.sas
    3. 出力結果 : les1541.lst
    4. 解説 : 国名をプロットすることによって理解が助けられる。 頭文字が重なっているので何らかの対策が要るであろうが。

  10. 提供データの紹介
    1. 配布資料は「A Handbook of Small Data Sets (D.J.Hand, F.Daly, A.D.Lunn, K.J.McConway and E.Ostrowski, 1994, Chapman & Hall)」に掲載されている 510 のデータの中から、 比較的解析しやすいであろうと判断した 24 のデータを集録したものである。
    2. 配布資料の第1ページ目には、どのようなデータが選ばれているかの一覧を 掲載しておいた。 左から「番号」、「表題」が、右端には「ファイル名」が表示されている。 第2ページ目からは、「番号」の順に、個々の「データの説明」と 「数値」、「出展」が列挙されている。 「番号」を頼りにそれぞれを参照することができるであろう。
    3. 各データは、 C ルームの「J:\コンピュータによる統計解析01(林 篤裕)\small_data\」 というディレクトリの下に保存しておく。適宜転送して利用してもかまわない。 なお、その時の「ファイル名」は資料 1ページ目の一覧表の右端に 記載されているものが使われている。

  11. おまけ
    • 何がやりたいか、何を知りたいかの目的をはっきりさせることが先決。 目的が決まれば、調査・実験のデザインや解析方法は決まってくる。
    • アンケートの設計には、事前調査が有効。回答者の心理を理解する必要がある。
    • Web 上にあるものは利用しない手はない。SAS プログラムも同様。 ファイルに保存して stat システムに転送すれば使えるかも。 少なくとも最初から入力するよりは楽。
    • 半年間、お疲れ様でした。
[DIR]講義のホームページへ戻ります