グループごとの集計, if文, 平均値の比較(検定)

統計モデル解析特論I/II : 第12回 (01/07/20)

  今回は、グループごとの集計方法のもう一つの方法について説明した後に、 条件に依って操作を実行する方法と、 そして、グループごとの平均値に差があるかの比較方法(検定)について説明する。 仮定条件や判断基準等、一見複雑に見える論理展開なので、 混乱しないように理解してほしい。
  1. ログイン画面が若干変更されたようだ。Region を指定する必要がある。
    1. https://welcome.oda.sas.com/ にアクセスする。
    2. 「Select your home region and click the desired action below to get started.」と表示されるので、枠の右端の下三角をクリックし「Asia Pacfic」を選択。
    3. 「SIGN IN」をクリックする。

  2. 各グループごとでの集計、基礎統計量

    1. プログラム : Lesson 12-1 : les1201.sas
       /* Lesson 12-01 */
       /*    File Name = les1201.sas  01/07/20   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'Kougi19/les1201-Results.txt' new;
      
      data gakusei;
        infile 'Kougi19/all19b.csv'
          firstobs=2 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc format;
        value clshint  low-<150='   -149'
                       150-<160='150-159'
                       160-<170='160-169'
                       170-<180='170-179'
                       180-high='180-   '
                       other   ='missing';
      run;
      
      proc print data=gakusei(obs=5);
      run;
      
      proc tabulate data=gakusei;                  : 要約統計量の表の作成
        class sex jitaku;                          : 特性変数であることの宣言
        var kodukai;                               : 集計する変量名
        tables kodukai*(n mean std),sex*jitaku;    : 表示内容、分類変量名
      run;                                         :
      
      proc tabulate data=gakusei;                  :
        class shintyou sex;                        :
        var taijyuu;                               :
        tables taijyuu*(n mean std),shintyou*sex;  :
        format shintyou clshint.;                  : 連続変量をグループ化することの指定
      run;                                         :
      

    2. 出力
                                            Monday, January  6, 2020 10:27:41 PM   6
      -----------------------------------------------------------------------
      |                 |                        sex                        |
      |                 |---------------------------------------------------|
      |                 |            F            |            M            |
      |                 |-------------------------+-------------------------|
      |                 |         jitaku          |         jitaku          |
      |                 |-------------------------+-------------------------|
      |                 |     G      |     J      |     G      |     J      |
      |-----------------+------------+------------+------------+------------|
      |kodukai |N       |       34.00|       68.00|       82.00|      126.00|
      |        |--------+------------+------------+------------+------------|
      |        |Mean    |    77647.06|    35110.29|    86256.10|    25777.78|
      |        |--------+------------+------------+------------+------------|
      |        |Std     |    58390.47|    31307.91|    59470.88|    32858.21|
      -----------------------------------------------------------------------
      
                                            Monday, January  6, 2020 10:27:41 PM   7
      -----------------------------------------------------------------------
      |                 |                     shintyou                      |
      |                 |---------------------------------------------------|
      |                 |    -149    |         150-159         |  160-169   |
      |                 |------------+-------------------------+------------|
      |                 |    sex     |           sex           |    sex     |
      |                 |------------+-------------------------+------------|
      |                 |     F      |     F      |     M      |     F      |
      |-----------------+------------+------------+------------+------------|
      |taijyuu |N       |        5.00|       40.00|        2.00|       38.00|
      |        |--------+------------+------------+------------+------------|
      |        |Mean    |       41.80|       47.31|       54.50|       51.07|
      |        |--------+------------+------------+------------+------------|
      |        |Std     |        2.59|        4.61|        9.19|        3.47|
      -----------------------------------------------------------------------
      
      (Continued)
                                            Monday, January  6, 2020 10:27:41 PM   8
      -----------------------------------------------------------------------
      |                 |                     shintyou                      |
      |                 |---------------------------------------------------|
      |                 |  160-169   |         170-179         |    180-    |
      |                 |------------+-------------------------+------------|
      |                 |    sex     |           sex           |    sex     |
      |                 |------------+-------------------------+------------|
      |                 |     M      |     F      |     M      |     M      |
      |-----------------+------------+------------+------------+------------|
      |taijyuu |N       |       65.00|        0.00|      151.00|       24.00|
      |        |--------+------------+------------+------------+------------|
      |        |Mean    |       58.50|           .|       63.10|       67.56|
      |        |--------+------------+------------+------------+------------|
      |        |Std     |        7.35|           .|        7.54|        7.38|
      -----------------------------------------------------------------------
      

  3. if 文 : ある条件に合致したデータに対して、特定の処理を実行させる

  4. if 文の演算子と便利な使い方

    [例1] 目的のサンプルだけを抽出する : 条件を書き並べる
    [例2] 新しい変量を定義する : 新しい変量を左辺に書く
    [例3] 変量の値を割り当てなおす : 新しい値を右辺に書く

    [例4] 複数の処理をさせたい場合 : do 〜 end で囲む

  5. 平均値の比較(検定) : 2つのグループの「平均値」に統計的に差があると言えるのか?

  6. パラメトリック検定 : t 検定、Welch の検定
    1. プログラム : Lesson 12-03 : les1203.sas
       /* Lesson 12-03 */
       /*    File Name = les1203.sas  01/07/20   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'Kougi19/les1203-Results.txt' new;
      
      data gakusei;
        infile 'Kougi19/all19b.csv'
          firstobs=2 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex=" " or shintyou="." or taijyuu="." then delete; 
      
      proc print data=gakusei(obs=5);
      run;
      
      proc sort data=gakusei;
        by sex;
      run;
      proc univariate data=gakusei plot;     : 分布が正規分布とみなせるか
        var shintyou taijyuu kyoui kodukai;  : 各変量ごとに
        by sex;                              : 性別ごとに計算
      run;
      
      proc ttest data=gakusei;               : 平均値の差の検定
        class sex;                           : 性別の違いによる比較
        var shintyou taijyuu kyoui kodukai;  : 各変量ごとに
      run;
      
    2. 出力
                                            Monday, January  6, 2020 10:31:04 PM 122
      The TTEST Procedure
      Variable:  shintyou
      
      sex           Method              N        Mean     Std Dev     Std Err
      F                                83       158.5      5.4081      0.5936
      M                               242       172.2      5.3909      0.3465
      Diff (1-2)    Pooled                   -13.6768      5.3953      0.6863
      Diff (1-2)    Satterthwaite            -13.6768                  0.6874
      
      sex           Method            Minimum     Maximum
      F                                 145.0       168.0
      M                                 156.0       186.0
      Diff (1-2)    Pooled                               
      Diff (1-2)    Satterthwaite                        
      
      sex           Method               Mean       95% CL Mean        Std Dev
      F                                 158.5       157.3    159.7      5.4081
      M                                 172.2       171.5    172.9      5.3909
      Diff (1-2)    Pooled           -13.6768    -15.0269 -12.3266      5.3953
      Diff (1-2)    Satterthwaite    -13.6768    -15.0356 -12.3180            
      
      sex           Method             95% CL Std Dev
      F                                4.6920   6.3841
      M                                4.9496   5.9193
      Diff (1-2)    Pooled             5.0094   5.8461
      Diff (1-2)    Satterthwaite                     
      
      Method           Variances        DF    t Value    Pr > |t|
      Pooled           Equal           323     -19.93      <.0001
      Satterthwaite    Unequal      141.81     -19.90      <.0001
      
                    Equality of Variances
      Method      Num DF    Den DF    F Value    Pr > F
      Folded F        82       241       1.01    0.9484
      
                                            Monday, January  6, 2020 10:31:05 PM 124
      The TTEST Procedure
      Variable:  taijyuu
      
      sex           Method              N        Mean     Std Dev     Std Err
      F                                83     48.6988      4.7230      0.5184
      M                               242     62.2388      7.9277      0.5096
      Diff (1-2)    Pooled                   -13.5400      7.2496      0.9222
      Diff (1-2)    Satterthwaite            -13.5400                  0.7270
      
      sex           Method            Minimum     Maximum
      F                               35.0000     60.0000
      M                               46.0000       100.0
      Diff (1-2)    Pooled                               
      Diff (1-2)    Satterthwaite                        
      
      sex           Method               Mean       95% CL Mean        Std Dev
      F                               48.6988     47.6675  49.7301      4.7230
      M                               62.2388     61.2350  63.2427      7.9277
      Diff (1-2)    Pooled           -13.5400    -15.3543 -11.7258      7.2496
      Diff (1-2)    Satterthwaite    -13.5400    -14.9721 -12.1080            
      
      sex           Method             95% CL Std Dev
      F                                4.0977   5.5753
      M                                7.2788   8.7048
      Diff (1-2)    Pooled             6.7311   7.8553
      Diff (1-2)    Satterthwaite                     
      
      Method           Variances        DF    t Value    Pr > |t|
      
      Pooled           Equal           323     -14.68      <.0001
      Satterthwaite    Unequal       240.6     -18.63      <.0001
      
                    Equality of Variances
      Method      Num DF    Den DF    F Value    Pr > F
      Folded F       241        82       2.82    <.0001
      
                                           Monday, January  6, 2020 10:31:05 PM 126
      The TTEST Procedure
      Variable:  kyoui
      
      sex           Method             N        Mean     Std Dev     Std Err
      F                               43     83.0000      3.9036      0.5953
      M                               71     88.0986      9.6853      1.1494
      Diff (1-2)    Pooled                   -5.0986      8.0213      1.5500
      Diff (1-2)    Satterthwaite            -5.0986                  1.2944
      
      sex           Method            Minimum     Maximum
      F                               70.0000     90.0000
      M                               46.0000       112.0
      Diff (1-2)    Pooled                               
      Diff (1-2)    Satterthwaite                        
      
      sex           Method               Mean       95% CL Mean        Std Dev
      F                               83.0000     81.7986  84.2014      3.9036
      M                               88.0986     85.8061  90.3911      9.6853
      Diff (1-2)    Pooled            -5.0986     -8.1698  -2.0274      8.0213
      Diff (1-2)    Satterthwaite     -5.0986     -7.6665  -2.5306            
      
      sex           Method             95% CL Std Dev
      F                                3.2187   4.9615
      M                                8.3128  11.6049
      Diff (1-2)    Pooled             7.0944   9.2292
      Diff (1-2)    Satterthwaite                     
      
      Method           Variances        DF    t Value    Pr > |t|
      Pooled           Equal           112      -3.29      0.0013
      Satterthwaite    Unequal      100.53      -3.94      0.0002
      
                    Equality of Variances
      Method      Num DF    Den DF    F Value    Pr > F
      Folded F        70        42       6.16    <.0001
      
                                            Monday, January  6, 2020 10:31:06 PM 128
      The TTEST Procedure
      Variable:  kodukai
      
      sex           Method              N        Mean     Std Dev     Std Err
      F                                78     49314.1     48483.6      5489.7
      M                               229     48620.1     52676.9      3481.0
      Diff (1-2)    Pooled                      694.0     51650.4      6771.4
      Diff (1-2)    Satterthwaite               694.0                  6500.3
      
      sex           Method            Minimum     Maximum
      F                                     0      300000
      M                                     0      350000
      Diff (1-2)    Pooled                               
      Diff (1-2)    Satterthwaite                        
      
      sex           Method               Mean       95% CL Mean        Std Dev
      F                               49314.1     38382.7  60245.5     48483.6
      M                               48620.1     41761.1  55479.1     52676.9
      Diff (1-2)    Pooled              694.0    -12630.5  14018.6     51650.4
      Diff (1-2)    Satterthwaite       694.0    -12154.7  13542.7            
      
      sex           Method             95% CL Std Dev
      F                               41887.9  57564.0
      M                               48253.8  57999.7
      Diff (1-2)    Pooled            47856.7  56102.5
      Diff (1-2)    Satterthwaite                     
      
      Method           Variances        DF    t Value    Pr > |t|
      Pooled           Equal           305       0.10      0.9184
      Satterthwaite    Unequal      143.53       0.11      0.9151
      
                    Equality of Variances
      Method      Num DF    Den DF    F Value    Pr > F
      Folded F       228        77       1.18    0.3980
      
    3. 結果の見方 : 二段階、このデータでは?
      • html形式とpdf形式の出力には両群のヒストグラムや推定された分布形状が表示されていて視覚的にも理解しやすい。

      • 等分散と言えるか? : 「Equality of Variances」の「Prob > F'」の項の値を見る
        • 身長(94.8%)は等分散であると言える ===> t検定 : Equal の項
        • 体重(0.01%未満), 胸囲(0.01%未満)は等分散であると言えない ===> Welchの検定 : Unequal の項
        • 小遣い(39.8%)は等分散であると言える ===> t検定 : Equal の項

      • 平均に差があると言えるか? : Prob > |T|
        • 身長(0.00%未満, Equal の項)や体重(0.01%未満, Unequal の項)、胸囲(0.02%, Unequal の項)は性別によって平均に差があると言える。
        • 小遣い(91.8%, Equal の項)は性別によって平均に差があるとは言えない。
        • ただし、この手法の前提条件である正規性について、 体重、胸囲、小遣い額の分布のどちらか一方、または両方が 正規分布とは言えないので、身長以外の結論は信憑性に欠ける。 よって、体重、胸囲、小遣い額については次節で説明するノンパラメトリック検定の結果を待つ必要がある。

      • 検定基準
        • どれくらいの割合(確率)でその仮説が発生するか?
        • 確率が小さい ==> 稀なこと(普通ではない) ==> 有意(分散が等しいとは言えない、平均に差がある)
        • 5% 有意、1% 有意 : 今までの慣習から

    4. [演習1] 上記の結果を、自宅生/下宿生間の差として 検定した場合、身長、体重、胸囲、小遣い額に差があると言えるか 各自で結論付けてみよ

  7. ノンパラメトリック検定 : Wilcoxon 検定
    1. プログラム : les1204.sas

       /* Lesson 12-04 */
       /*    File Name = les1204.sas  01/07/20   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'Kougi19/les1204-Results.txt' new;
      
      data gakusei;
        infile 'Kougi19/all19b.csv'
          firstobs=2 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex=" " or shintyou="." or taijyuu="." then delete; 
      
      proc print data=gakusei(obs=5);
      run;
      
      proc npar1way data=gakusei wilcoxon;   : wilcoxon 検定
        class sex;                           : 分類したい特性変数の指定
        var shintyou taijyuu kyoui kodukai;  : 比較したい変量名
      run;
      
    2. 出力
                                            Monday, January  6, 2020 10:31:37 PM 131
      The NPAR1WAY Procedure
               Wilcoxon Scores (Rank Sums) for Variable shintyou
                          Classified by Variable sex
       
                         Sum of      Expected       Std Dev          Mean
      sex       N        Scores      Under H0      Under H0         Score
      F        83        4124.0       13529.0    738.142405     49.686747
      M       242       48851.0       39446.0    738.142405    201.863636
      
                      Average scores were used for ties.
      
                          Wilcoxon Two-Sample Test
                                                      t Approximation
      Statistic           Z    Pr < Z    Pr > |Z|    Pr < Z  Pr > |Z|
       4124.000    -12.7408    <.0001      <.0001    <.0001    <.0001
      
                 Z includes a continuity correction of 0.5.
      
              Kruskal-Wallis Test
      Chi-Square        DF    Pr > ChiSq
        162.3444         1        <.0001
      
                                            Monday, January  6, 2020 10:31:37 PM 133
      The NPAR1WAY Procedure
               Wilcoxon Scores (Rank Sums) for Variable taijyuu
                          Classified by Variable sex
       
                         Sum of      Expected       Std Dev          Mean
      sex       N        Scores      Under H0      Under H0         Score
      F        83        4424.0       13529.0    738.002845     53.301205
      M       242       48551.0       39446.0    738.002845    200.623967
      
                      Average scores were used for ties.
      
                          Wilcoxon Two-Sample Test
                                                      t Approximation
      Statistic           Z    Pr < Z    Pr > |Z|    Pr < Z  Pr > |Z|
       4424.000    -12.3367    <.0001      <.0001    <.0001    <.0001
      
                 Z includes a continuity correction of 0.5.
      
              Kruskal-Wallis Test
      Chi-Square        DF    Pr > ChiSq
        152.2102         1        <.0001
      
                                            Monday, January  6, 2020 10:31:38 PM 135
      The NPAR1WAY Procedure
                Wilcoxon Scores (Rank Sums) for Variable kyoui
                          Classified by Variable sex
       
                         Sum of      Expected       Std Dev          Mean
      sex       N        Scores      Under H0      Under H0         Score
      F        43       1648.50       2472.50    170.162136     38.337209
      M        71       4906.50       4082.50    170.162136     69.105634
      
                      Average scores were used for ties.
      
                          Wilcoxon Two-Sample Test
                                                      t Approximation
      Statistic           Z    Pr < Z    Pr > |Z|    Pr < Z  Pr > |Z|
       1648.500     -4.8395    <.0001      <.0001    <.0001    <.0001
      
                 Z includes a continuity correction of 0.5.
      
              Kruskal-Wallis Test
      Chi-Square        DF    Pr > ChiSq
         23.4492         1        <.0001
      
                                            Monday, January  6, 2020 10:31:38 PM 137
      The NPAR1WAY Procedure
               Wilcoxon Scores (Rank Sums) for Variable kodukai
                          Classified by Variable sex
       
                         Sum of      Expected       Std Dev          Mean
      sex       N        Scores      Under H0      Under H0         Score
      F        78      12660.50       12012.0    673.661387    162.314103
      M       229      34617.50       35266.0    673.661387    151.168122
      
                      Average scores were used for ties.
      
                          Wilcoxon Two-Sample Test
                                                      t Approximation
      Statistic           Z    Pr > Z    Pr > |Z|    Pr > Z  Pr > |Z|
       12660.50      0.9619    0.1680      0.3361    0.1684    0.3369
      
                 Z includes a continuity correction of 0.5.
      
              Kruskal-Wallis Test
      Chi-Square        DF    Pr > ChiSq
          0.9267         1        0.3357
      
    3. 結果の見方 :
      • 「Wilcoxon Two-Sample Test」の「Prob > |Z|」(両側検定)の項を見る。
      • この手法では身長/体重/胸囲/小遣いの検定結果はパラメトリック手法と同じであった。

      • 身長(0.01%未満)や体重(0.01%未満)、胸囲(0.01%未満)は性別によって平均に差があると言える。
      • 小遣い(33.6%)は性別によって平均に差があるとは言えない。

    4. [演習2] 上記の結果を、自宅生/下宿生間の差として 検定した場合、身長、体重、胸囲、小遣い額に差があると言えるか 各自で結論付けてみよ

  8. 次回は、... : 01月14日 16:20-17:50

  9. [おまけ] 単変量、二変量を視覚的に捉えると? by Mathematica
    1. 1 dim. Normal Distribution [式(a)] 1次元正規分布 N(0,1)
    2. 2 dim. Normal Distribution [式(b)] 2次元正規分布 N({0,0},{1,1}, ρ=0.0)
    3. 2 dim. Normal Distribution [式(c)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)
    4. 2 dim. Normal Distribution [式(d)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、y=1 で切り出し
    5. 2 dim. Normal Distribution [式(e)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、x+y=2 で切り出し
[DIR]講義のホームページへ戻ります