【追加】実験計画法、クラスター分析

統計モデル解析特論I/II : 第15回 (02/02/21)

 今回の時間は各自最終レポートの作成に充ててもらおうと思っている。 質問があれば研究室に待機しているので連絡してほしい。 以下は前回に収録し切れなかった2つの統計手法である。興味があれば閲覧ください。
  1. 前回のショート課題: 6名

  2. 実験計画法: proc glm
     製品開発や工程管理ではより良い条件を探索するために種々の実験を行う。 その際に幾つか条件(因子)を変えて実験を行うことになるが、 全ての組み合わせの中でどの条件が一番目的に適している(収量が多い等)かを 判断する手法として実験計画法がある。品質管理の領域で利用されている。 因子数や実験の手順等で幾つかのバリエーションがあるが、 ここではその基本となる1因子を取り扱うモデルを端緒として紹介する。

     実験計画法の基本的な考え方は、要因間のばらつきと、 外乱(誤差)のばらつきを比較して、要因間のばらつきが大きいければ 成果物(の量)の違いは「要因による意味のある差(有意)」が存在すると 判断することである。 その際に用いるアイディアとして、全体のばらつきを、 要因間のばらつきと外乱(誤差)のばらつきに算術的に分解出来ることである。 ST=SA+Se

     ばらつきの指標が分散なので、「分散分析」を行い判断することになる。 大きさの比較として比を用い、分散の比はF分布に従うことを利用して検定を行う。 「帰無仮説H0: 要因間に差がない」とした場合の検定。

    1. 一元配置(母数模型): 資料 p133-
      • 表8.1.1のデータに対して
      • データファイル : table811.csv
      • SAS ソース : les1501.sas
         /* Lesson 15-01 */
         /*    File Name = les1501.sas   02/02/21   */
        
        options nocenter linesize=78 pagesize=30;
        options locale='en_US';
        /* options locale='ja_JP'; */
        proc printto print = 'StatM20/les1501-Results.txt' new;
        ods listing gpath='StatM20/SAS_ODS15'; 
        
        data polymer;
          infile 'StatM20/table811.csv'
            firstobs=2 
            dlm=',' dsd
            encoding=sjis termstr=crlf 
        ;
          input A R Y;
        
        proc print data=polymer;
        run;
        
        proc glm data=polymer;       : 実験計画法
          class A;                   : 水準の変量
          model Y = A;               : モデル
          means A / tukey;           : 水準間の比較(多重比較)
        run;
        
      • 出力
                                             Monday, February  1, 2021 06:21:52 PM  63
        Obs    A    R      Y
          1    1    1    10.8
          2    1    2     9.9
          3    1    3    10.7
          4    1    4    10.4
          5    1    5     9.7
          6    2    1    10.7
          7    2    2    10.6
          8    2    3    11.0
          9    2    4    10.8
         10    2    5    10.9
         11    3    1    11.9
         12    3    2    11.2
         13    3    3    11.0
         14    3    4    11.1
         15    3    5    11.3
         16    4    1    11.4
         17    4    2    10.7
         18    4    3    10.9
         19    4    4    11.3
         20    4    5    11.7
        
                                             Monday, February  1, 2021 06:21:52 PM  64
        The GLM Procedure
            Class Level Information
        Class         Levels    Values
        A                  4    1 2 3 4 
        
        Number of Observations Read          20
        Number of Observations Used          20
        
                                             Monday, February  1, 2021 06:21:52 PM  65
        The GLM Procedure
        Dependent Variable: Y   
                                              Sum of
        Source                     DF        Squares    Mean Square   F Value   Pr > F
        Model                       3     3.10000000     1.03333333      7.58   0.0022
        Error                      16     2.18000000     0.13625000                   
        Corrected Total            19     5.28000000                                  
        
        R-Square     Coeff Var      Root MSE        Y Mean
        0.587121      3.386427      0.369121      10.90000
        
        Source                     DF      Type I SS    Mean Square   F Value   Pr > F
        A                           3     3.10000000     1.03333333      7.58   0.0022
        
                                             Monday, February  1, 2021 06:21:52 PM  66
        The GLM Procedure
        Dependent Variable: Y   
        Source                     DF    Type III SS    Mean Square   F Value   Pr > F
        A                           3     3.10000000     1.03333333      7.58   0.0022
        
                                             Monday, February  1, 2021 06:21:52 PM  67
        The GLM Procedure
        Tukey's Studentized Range (HSD) Test for Y
        
        NOTE: This test controls the Type I experimentwise error rate, but it 
        generally has a higher Type II error rate than REGWQ.
        
        Alpha                                   0.05
        Error Degrees of Freedom                  16
        Error Mean Square                    0.13625
        Critical Value of Studentized Range  4.04606
        Minimum Significant Difference        0.6679
        
        BoxPlot BoxPlot

        • 「帰無仮説H0: 水準間に差がない」とした場合の起こり得る確率が0.2%なので、1%よりも小さい。十分小さいので帰無仮説は棄却される。 つまり、「水準間に差がない」とは言えない。水準間で差があると言える。
        • では、どの水準間で差があると言えるのか=多重比較(ここではTukeyの方法を用いる)
          • 同じベルト内は統計的に差があるとは言えない。
          • 水準1と2の間。水準2と3と4の間。

    2. 一元配置(変量模型): 資料 p141-
      • 表8.2.1のデータに対して
      • データファイル : table821.csv
      • SAS ソース : les1502.sas
         /* Lesson 15-02 */
         /*    File Name = les1502.sas   02/02/21   */
        
        options nocenter linesize=78 pagesize=30;
        options locale='en_US';
        /* options locale='ja_JP'; */
        proc printto print = 'StatM20/les1502-Results.txt' new;
        ods listing gpath='StatM20/SAS_ODS15'; 
        
        data polymer;
          infile 'StatM20/table821.csv'
            firstobs=2 
            dlm=',' dsd
            encoding=sjis termstr=crlf 
        ;
          input A R Y;
        
        proc print data=polymer;
        run;
        
        proc glm data=polymer;
          class A;
          model Y = A;
          means A / tukey;
        run;
        
      • 出力

    3. 二元配置(繰り返しなし): 資料 p146-
      • 表8.3.2

    4. 直行配列
       ここでは取り扱わないが、 因子数が多くなり、また各因子の水準数が多くなると、実験回数は指数的に 多くなってしまう。これでは時間やコストがかさみ、 場合によっては均質な実験環境が保てないことも有り得るので、 実験回数を少なくしたい。 どの水準組み合わせが目的に適した組み合わせかを 効率的に探索する手法として直行配列がある。 因子数と水準数によってその組み合わせに対応した直交表を用いることになる。

  3. クラスター分析: proc fastclus

  4. クラスター分析: Iris データの場合

  5. 最後の最後
     Q3、Q4を通して統計やデータ分析に多少なりとも興味を持っていただければ幸いです。 COVID-19の動向が不気味ですが、くれぐれもお体にはお気を付けになられてご活躍ください。 では、お元気で。

  6. 連絡したければ