グループ分け、グループごとの集計, if文, 平均値の比較(検定)

統計モデル解析特論I/II : 第12回 (01/11/22)

  明けましておめでとうございます。 一時期下火であったCOVID-19の動向がまた不気味になっていますが、 健康に気を付けてお過ごしいただければと思っています。
 今回は、グループごとの集計方法について説明した後に、 条件に依って操作を実行する方法と、 そして、グループごとの平均値に差があるかの比較方法(検定)について説明する。 仮定条件や判断基準等、一見複雑に見える論理展開なので、 混乱しないように理解してほしい。
  1. 前回のショート課題: 8名

  2. これまでのおさらい: SASを用いた統計解析の流れ ===> 不安なら各自で第11回までを
    1. データを電子化 : Excelで
    2. データファイルをSASに転送(アップロード)
    3. データをファイルから読み込むように SAS プログラムを記述
    4. 統計手法ごとのproc(procedure)を駆使
      • proc print
      • proc means
      • proc univariate
      • proc freq
      • proc chart
    5. 便利なコマンドの利用
    6. 分析結果のダウンロード
    7. レポートの作成

  3. グループ分け : 調査対象の性質・特性によって分類

    1. プログラム : Lesson 12-01 : les1201.sas
      
       /* Lesson 12-01 */
       /*    File Name = les1201.sas  01/11/22   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'StatM21/les1201-Results.txt' new;
      
      data gakusei;
        infile 'StatM21/StudAll21d.csv'
          firstobs=9 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input sex $ shintyou taijyuu kyoui 
              jitaku : $10. kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=5);
      run;
      
      title '*** データ全体を対象に ***';        : 出力に説明を追記する
      proc freq data=gakusei;
        table sex;
      run;
      
      proc means data=gakusei;
        var shintyou taijyuu; 
      run;
      
      ods listing;                              : グラフをキャラクタープロットで出力する場合
      ods graphics off;                         :
      proc univariate data=gakusei plot;
        var shintyou taijyuu; 
      run;
      ods graphics on;
      ods listing close;
      
      /* 性別ごとに(方法1) */
      title '*** 性別ごとに平均値(方法1) ***';   : 出力に説明を追記する
      proc means data=gakusei;                   : 平均を算出
        where sex="M";                           : 男について計算
        var shintyou taijyuu; 
      run;
      
      proc means data=gakusei;                   : 平均を算出
        where sex="F";                           : 女について計算
        var shintyou taijyuu; 
      run;
      
      /* 性別ごとに(方法2) */
      title '*** 性別ごとに平均値(方法2) ***';   : 出力に説明を追記する
      proc sort data=gakusei;                    : 並べ替え(ソート)
        by sex;                                  : 性別ごとに
      run;
      
      proc means data=gakusei;                   : 平均の計算
        var shintyou taijyuu;                    : 身長と体重について
        by sex;                                  : 性別ごとに
      run;
      
      ods listing;                               : グラフをキャラクタープロットで出力する場合
      ods graphics off;                          :
      proc univariate data=gakusei plot;         : 基礎統計量の計算
        var shintyou taijyuu;                    : 身長と体重について
        by sex;                                  : 性別ごとに
      run;
      ods graphics on;
      ods listing close;
      
      /* グラフィック出力(キャラクタグラフではない) */
      proc univariate data=gakusei plot;
        var shintyou taijyuu kyoui kodukai; 
        by sex;
      run;
      
      /* 性別ごとにヒストグラム(方法1) */
      title ' *** 性別ごとにヒストグラム(方法1) ***';
      proc chart data=gakusei;                  : ヒストグラム
        hbar shintyou taijyuu;                  : 指定した変量の水平棒グラフを表示
        by sex;
      run;
      
      /* 性別ごとにヒストグラム(方法2) */
      title '*** 性別ごとにヒストグラム(方法2) ***';
      proc chart data=gakusei;                  : ヒストグラム
        hbar shintyou taijyuu/group=sex;        : 性別ごとに併置して
      run;
      

    2. 出力
      • [結果タグ] html 形式: les1201-Results.html
      • [結果タグ] pdf 形式: les1201-Output.pdf
      • テキストファイル: les1201-Results.txt

      • 性別で身長や体重の平均に違いがあることを確認せよ。
      • 各々の分布の特徴と違いを把握せよ。
      • ヒストグラムだけでなく、箱髭図や樹葉図からでも分布特性が把握できるようにせよ。(html 形式、pdf 形式)
      *** データ全体を対象に ***   Sunday, January  9, 2022 06:54:11 PM 323
      The FREQ Procedure
                                      Cumulative    Cumulative
      sex    Frequency     Percent     Frequency      Percent
      --------------------------------------------------------
      F           141       29.81           141        29.81  
      M           332       70.19           473       100.00  
      
                      Frequency Missing = 125
      
      *** データ全体を対象に ***   Sunday, January  9, 2022 06:54:11 PM 324
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   575    168.7570435      7.8268177    145.0000000    187.0000000
      taijyuu    531     59.7519774      9.3748485     35.0000000    100.0000000
      --------------------------------------------------------------------------
      
       <<< 中略 >>> 
      
      *** 性別ごとに平均値(方法1) ***                                  335
                                                Sunday, January  9, 2022 06:54:11 PM
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   325    171.9655385      5.3719304    156.0000000    186.5000000
      taijyuu    323     62.0965944      8.0331778     42.0000000    100.0000000
      --------------------------------------------------------------------------
      
      *** 性別ごとに平均値(方法1) ***                                  336
                                                Sunday, January  9, 2022 06:54:11 PM
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   133    159.0601504      5.4629737    145.0000000    171.0000000
      taijyuu     94     49.2872340      5.7855258     35.0000000     78.0000000
      --------------------------------------------------------------------------
      
      *** 性別ごとに平均値(方法2) ***                                  337
                                                Sunday, January  9, 2022 06:54:11 PM
      sex=' '
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   117    170.8675214      6.8861659    151.0000000    187.0000000
      taijyuu    114     61.7377193      9.4864448     41.0000000     98.0000000
      --------------------------------------------------------------------------
      
      sex=F
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   133    159.0601504      5.4629737    145.0000000    171.0000000
      taijyuu     94     49.2872340      5.7855258     35.0000000     78.0000000
      --------------------------------------------------------------------------
      
      sex=M
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   325    171.9655385      5.3719304    156.0000000    186.5000000
      taijyuu    323     62.0965944      8.0331778     42.0000000    100.0000000
      --------------------------------------------------------------------------
      
       <<< 中略 >>> 
      
      *** 性別ごとに平均値(方法2) ***                                  374
                                                Sunday, January  9, 2022 06:54:11 PM
      The UNIVARIATE Procedure
      Variable:  shintyou
      
      Schematic Plots
               |
           190 +
               |            |                       0
               |            |                       0
               |            |                       |
           180 +            |                       |
               |            |                       |
               |         +-----+                 +-----+
               |         |     |                 *--+--*
           170 +         *--+--*        |        |     |
               |         |     |        |        +-----+
               |         +-----+        |           |
               |            |        +-----+        |
           160 +            |        *--+--*        |
               |            |        |     |        0
               |            |        +-----+        0
               |                        |
           150 +            0           |
               |                        |
               |                        0
               |
           140 +
                ------------+-----------+-----------+-----------
           sex                             F           M
      
       <<< 中略 >>> 
      
       *** 性別ごとにヒストグラム(方法1) ***                        377
                                                Sunday, January  9, 2022 06:54:12 PM
      sex=' '
      
      shintyou                                        Cum.              Cum.
      Midpoint                                  Freq  Freq  Percent  Percent
                 |
         152.5   |*                                1     1     0.85     0.85
                 |
         157.5   |*****                            5     6     4.27     5.13
                 |
         162.5   |****************                16    22    13.68    18.80
                 |
         167.5   |****************************    28    50    23.93    42.74
                 |
         172.5   |**************************      26    76    22.22    64.96
                 |
         177.5   |****************************    28   104    23.93    88.89
                 |
         182.5   |***********                     11   115     9.40    98.29
                 |
         187.5   |**                               2   117     1.71   100.00
                 |
                 -----+----+----+----+----+---
                      5    10   15   20   25
                           Frequency
      
       <<< 中略 >>> 
      
       *** 性別ごとにヒストグラム(方法1) ***                        379
                                                Sunday, January  9, 2022 06:54:12 PM
      sex=F
      
      shintyou                                           Cum.              Cum.
      Midpoint                                     Freq  Freq  Percent  Percent
                 |
           144   |*                                   1     1     0.75     0.75
           147   |****                                4     5     3.01     3.76
           150   |*******                             7    12     5.26     9.02
           153   |***************                    15    27    11.28    20.30
           156   |**********************             22    49    16.54    36.84
           159   |*******************************    31    80    23.31    60.15
           162   |***********************            23   103    17.29    77.44
           165   |*********************              21   124    15.79    93.23
           168   |*****                               5   129     3.76    96.99
           171   |****                                4   133     3.01   100.00
                 |
                 -----+----+----+----+----+----+-
                      5    10   15   20   25   30
                             Frequency
      
       <<< 中略 >>> 
      
       *** 性別ごとにヒストグラム(方法1) ***                        381
                                                Sunday, January  9, 2022 06:54:12 PM
      sex=M
      
      shintyou                                              Cum.              Cum.
      Midpoint                                        Freq  Freq  Percent  Percent
                 |
           156   |*                                      2     2     0.62     0.62
           159   |**                                     6     8     1.85     2.46
           162   |*****                                 12    20     3.69     6.15
           165   |**********                            24    44     7.38    13.54
           168   |**********************                55    99    16.92    30.46
           171   |**********************************    85   184    26.15    56.62
           174   |*************************             63   247    19.38    76.00
           177   |***************                       38   285    11.69    87.69
           180   |***********                           27   312     8.31    96.00
           183   |****                                   9   321     2.77    98.77
           186   |**                                     4   325     1.23   100.00
                 |
                 ----+---+---+---+---+---+---+---+--
                     10  20  30  40  50  60  70  80
                              Frequency
      
       <<< 中略 >>> 
      
      *** 性別ごとにヒストグラム(方法2) ***                         383
                                                Sunday, January  9, 2022 06:54:12 PM
      
      sex   shintyou                                          Cum.              Cum.
            Midpoint                                    Freq  Freq  Percent  Percent
                       |
               145.5   |                                   0     0     0.00     0.00
               148.5   |                                   0     0     0.00     0.00
               151.5   |                                   1     1     0.17     0.17
               154.5   |*                                  2     3     0.35     0.52
               157.5   |*                                  2     5     0.35     0.87
               160.5   |                                   1     6     0.17     1.04
               163.5   |******                            16    22     2.78     3.83
               166.5   |*******                           17    39     2.96     6.78
               169.5   |********                          20    59     3.48    10.26
               172.5   |******                            15    74     2.61    12.87
               175.5   |*******                           18    92     3.13    16.00
               178.5   |*****                             12   104     2.09    18.09
               181.5   |****                               9   113     1.57    19.65
               184.5   |*                                  3   116     0.52    20.17
               187.5   |                                   1   117     0.17    20.35
                       |
      F        145.5   |*                                  3   120     0.52    20.87
               148.5   |**                                 4   124     0.70    21.57
               151.5   |****                               9   133     1.57    23.13
               154.5   |******                            15   148     2.61    25.74
               157.5   |**********                        26   174     4.52    30.26
               160.5   |************                      31   205     5.39    35.65
               163.5   |********                          21   226     3.65    39.30
               166.5   |********                          19   245     3.30    42.61
               169.5   |**                                 4   249     0.70    43.30
               172.5   |                                   1   250     0.17    43.48
               175.5   |                                   0   250     0.00    43.48
               178.5   |                                   0   250     0.00    43.48
               181.5   |                                   0   250     0.00    43.48
               184.5   |                                   0   250     0.00    43.48
               187.5   |                                   0   250     0.00    43.48
                       |
      M        145.5   |                                   0   250     0.00    43.48
               148.5   |                                   0   250     0.00    43.48
               151.5   |                                   0   250     0.00    43.48
               154.5   |                                   0   250     0.00    43.48
               157.5   |*                                  2   252     0.35    43.83
               160.5   |***                                7   259     1.22    45.04
               163.5   |******                            14   273     2.43    47.48
               166.5   |***************                   37   310     6.43    53.91
               169.5   |******************************    74   384    12.87    66.78
               172.5   |******************************    74   458    12.87    79.65
               175.5   |*********************             53   511     9.22    88.87
               178.5   |*************                     33   544     5.74    94.61
               181.5   |*********                         23   567     4.00    98.61
               184.5   |**                                 6   573     1.04    99.65
               187.5   |*                                  2   575     0.35   100.00
                       |
                       ----+---+---+---+---+---+---+--
                           10  20  30  40  50  60  70
                                 Frequency
       <<< 中略 >>> 
      

    3. 結果の見方
      • 平均値や中央値、最頻値がヒストグラムや箱髭図中で とのような位置にあるか判断できるか?
      • 箱髭図が読めるようになったか? この図だけで分布形状がイメージできるようになったか?
      • 群毎に分けると特徴がより鮮明に判るようになる。
      • 比較する際には軸を揃えたい。揃えないと比較がし難い。
      • 場合によっては「欠損値」は除外したい時もある。 ===> 第6節 if文
      • proc chart内の軸ラベルを明示的に指定するには、「midpoints=」や「axis=」を用いる。

    4. [テクニック] グループを分けて分析する場合は、事前に並べ替え(Sort)が必要
    5. [演習1] 他の変数(胸囲等)も調べてみよ。また、垂直棒グラフでも比較してみよ。
    6. [演習2] 自宅生/下宿生別に小遣い額や通話料金を集計して両者の違いを明らかにせよ。

  4. 各グループごとでの集計、基礎統計量

    1. プログラム : Lesson 12-2 : les1202.sas
      
       /* Lesson 12-02 */
       /*    File Name = les1202.sas  01/11/22   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'StatM21/les1202-Results.txt' new;
      
      data gakusei;
        infile 'StatM21/StudAll21d.csv'
          firstobs=9 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input sex $ shintyou taijyuu kyoui 
              jitaku : $10. kodukai carryer $ tsuuwa;
      
      proc format;
        value cl_shin  low-<150='   -149'
                       150-<160='150-159'
                       160-<170='160-169'
                       170-<180='170-179'
                       180-high='180-   '
                       other   ='missing';
      run;
      
      proc print data=gakusei(obs=5);
      run;
      
      proc tabulate data=gakusei;                  : 要約統計量の表の作成
        class sex jitaku;                          : 特性変数であることの宣言
        var kodukai;                               : 集計する変量名
        tables kodukai*(n mean std),sex*jitaku;    : 表示内容、分類変量名
      run;                                         :
      
      proc tabulate data=gakusei;                  :
        class shintyou sex;                        :
        var taijyuu;                               :
        tables taijyuu*(n mean std),shintyou*sex;  :
        format shintyou cl_shin.;                  : 連続変量をグループ化することの指定
      run;                                         :
      

    2. 出力
      
                                            Sunday, January  9, 2022 06:54:21 PM 388
      -----------------------------------------------------------------------
      |                 |                        sex                        |
      |                 |---------------------------------------------------|
      |                 |            F            |            M            |
      |                 |-------------------------+-------------------------|
      |                 |         jitaku          |         jitaku          |
      |                 |-------------------------+-------------------------|
      |                 | 下宿生     | 自宅生     | 下宿生     | 自宅生     |
      |-----------------+------------+------------+------------+------------|
      |kodukai |N       |       36.00|       77.00|      106.00|      167.00|
      |        |--------+------------+------------+------------+------------|
      |        |Mean    |    76444.44|    34564.94|    74367.92|    20347.31|
      |        |--------+------------+------------+------------+------------|
      |        |Std     |    56938.28|    33783.30|    58217.71|    31089.05|
      -----------------------------------------------------------------------
      
                                            Sunday, January  9, 2022 06:54:21 PM 389
      -----------------------------------------------------------------------
      |                 |                     shintyou                      |
      |                 |---------------------------------------------------|
      |                 |    -149    |         150-159         |  160-169   |
      |                 |------------+-------------------------+------------|
      |                 |    sex     |           sex           |    sex     |
      |                 |------------+-------------------------+------------|
      |                 |     F      |     F      |     M      |     F      |
      |-----------------+------------+------------+------------+------------|
      |taijyuu |N       |        6.00|       44.00|        2.00|       43.00|
      |        |--------+------------+------------+------------+------------|
      |        |Mean    |       41.83|       47.51|       54.50|       51.48|
      |        |--------+------------+------------+------------+------------|
      |        |Std     |        2.32|        4.48|        9.19|        4.14|
      -----------------------------------------------------------------------
      
      (Continued)
      
                                            Sunday, January  9, 2022 06:54:21 PM 390
      -----------------------------------------------------------------------
      |                 |                     shintyou                      |
      |                 |---------------------------------------------------|
      |                 |  160-169   |         170-179         |    180-    |
      |                 |------------+-------------------------+------------|
      |                 |    sex     |           sex           |    sex     |
      |                 |------------+-------------------------+------------|
      |                 |     M      |     F      |     M      |     M      |
      |-----------------+------------+------------+------------+------------|
      |taijyuu |N       |       97.00|        1.00|      193.00|       31.00|
      |        |--------+------------+------------+------------+------------|
      |        |Mean    |       57.70|       78.00|       63.44|       68.02|
      |        |--------+------------+------------+------------+------------|
      |        |Std     |        6.76|           .|        7.57|        7.95|
      -----------------------------------------------------------------------
      

  5. 分布の把握について : 気をつける点

  6. if 文 : ある条件に合致したデータに対して、特定の処理を実行させる

  7. if 文の演算子と便利な使い方

    [例1] 目的のサンプルだけを抽出する : 条件を書き並べる
    [例2] 新しい変量を定義する : 新しい変量を左辺に書く
    [例3] 変量の値を割り当てなおす : 新しい値を右辺に書く

    [例4] 複数の処理をさせたい場合 : do; ~ end; で囲む

  8. 平均値の比較(検定) : 2つのグループの「平均値」に統計的に差があると言えるのか?

  9. パラメトリック検定 : t 検定、Welch の検定
    1. プログラム : Lesson 12-04 : les1204.sas
      
       /* Lesson 12-04 */
       /*    File Name = les1204.sas  01/11/22   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'StatM21/les1204-Results.txt' new;
      
      data gakusei;
        infile 'StatM21/StudAll21d.csv'
          firstobs=9 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input sex $ shintyou taijyuu kyoui 
              jitaku : $10. kodukai carryer $ tsuuwa;
      
      if sex=" " or shintyou="." or taijyuu="." then delete; 
      
      proc print data=gakusei(obs=5);
      run;
      
      proc sort data=gakusei;
        by sex;
      run;
      proc univariate data=gakusei plot;     : 分布が正規分布とみなせるか
        var shintyou taijyuu kyoui kodukai;  : 各変量ごとに
        by sex;                              : 性別ごとに計算
      run;
      
      proc ttest data=gakusei;               : 平均値の差の検定
        class sex;                           : 性別の違いによる比較
        var shintyou taijyuu kyoui kodukai;  : 各変量ごとに
      run;
      
    2. 出力
      
                                            Sunday, January  9, 2022 06:54:33 PM 424
      The TTEST Procedure
      Variable:  shintyou
      
      sex           Method              N        Mean     Std Dev     Std Err
      F                                94       158.6      5.5907      0.5766
      M                               323       171.9      5.3847      0.2996
      Diff (1-2)    Pooled                   -13.3360      5.4316      0.6365
      Diff (1-2)    Satterthwaite            -13.3360                  0.6498
      
      sex           Method            Minimum     Maximum
      F                                 145.0       170.0
      M                                 156.0       186.5
      Diff (1-2)    Pooled                               
      Diff (1-2)    Satterthwaite                        
      
      sex           Method               Mean       95% CL Mean        Std Dev
      F                                 158.6       157.5    159.8      5.5907
      M                                 171.9       171.4    172.5      5.3847
      Diff (1-2)    Pooled           -13.3360    -14.5873 -12.0848      5.4316
      Diff (1-2)    Satterthwaite    -13.3360    -14.6202 -12.0518            
      
      sex           Method             95% CL Std Dev
      F                                4.8898   6.5280
      M                                4.9990   5.8354
      Diff (1-2)    Pooled             5.0859   5.8281
      Diff (1-2)    Satterthwaite                     
      
      Method           Variances        DF    t Value    Pr > |t|
      Pooled           Equal           415     -20.95      <.0001
      Satterthwaite    Unequal       146.9     -20.52      <.0001
      
                    Equality of Variances
      Method      Num DF    Den DF    F Value    Pr > F
      Folded F        93       322       1.08    0.6283
      
                                            Sunday, January  9, 2022 06:54:33 PM 426
      The TTEST Procedure
      Variable:  taijyuu
      
      sex           Method              N        Mean     Std Dev     Std Err
      F                                94     49.2872      5.7855      0.5967
      M                               323     62.0966      8.0332      0.4470
      Diff (1-2)    Pooled                   -12.8094      7.5876      0.8892
      Diff (1-2)    Satterthwaite            -12.8094                  0.7456
      
      sex           Method            Minimum     Maximum
      F                               35.0000     78.0000
      M                               42.0000       100.0
      Diff (1-2)    Pooled                               
      Diff (1-2)    Satterthwaite                        
      
      sex           Method               Mean       95% CL Mean        Std Dev
      F                               49.2872     48.1022  50.4722      5.7855
      M                               62.0966     61.2172  62.9760      8.0332
      Diff (1-2)    Pooled           -12.8094    -14.5573 -11.0614      7.5876
      Diff (1-2)    Satterthwaite    -12.8094    -14.2792 -11.3395            
      
      sex           Method             95% CL Std Dev
      F                                5.0602   6.7555
      M                                7.4578   8.7055
      Diff (1-2)    Pooled             7.1047   8.1415
      Diff (1-2)    Satterthwaite                     
      
      Method           Variances        DF    t Value    Pr > |t|
      Pooled           Equal           415     -14.41      <.0001
      Satterthwaite    Unequal      207.75     -17.18      <.0001
      
                    Equality of Variances
      Method      Num DF    Den DF    F Value    Pr > F
      Folded F       322        93       1.93    0.0002
      
                                            Sunday, January  9, 2022 06:54:34 PM 428
      The TTEST Procedure
      Variable:  kyoui
      
      sex           Method              N        Mean     Std Dev     Std Err
      F                                49     83.1837      5.6630      0.8090
      M                               107     88.2897      8.7906      0.8498
      Diff (1-2)    Pooled                    -5.1060      7.9489      1.3711
      Diff (1-2)    Satterthwaite             -5.1060                  1.1733
      
      sex           Method            Minimum     Maximum
      F                               70.0000       108.0
      M                               46.0000       112.0
      Diff (1-2)    Pooled                               
      Diff (1-2)    Satterthwaite                        
      
      sex           Method               Mean       95% CL Mean        Std Dev
      F                               83.1837     81.5571  84.8103      5.6630
      M                               88.2897     86.6049  89.9746      8.7906
      Diff (1-2)    Pooled            -5.1060     -7.8147  -2.3974      7.9489
      Diff (1-2)    Satterthwaite     -5.1060     -7.4262  -2.7859            
      
      sex           Method             95% CL Std Dev
      F                                4.7225   7.0748
      M                                7.7499  10.1569
      Diff (1-2)    Pooled             7.1516   8.9478
      Diff (1-2)    Satterthwaite                     
      
      Method           Variances        DF    t Value    Pr > |t|
      Pooled           Equal           154      -3.72      0.0003
      Satterthwaite    Unequal       136.9      -4.35      <.0001
      
                    Equality of Variances
      Method      Num DF    Den DF    F Value    Pr > F
      Folded F       106        48       2.41    0.0009
      
                                            Sunday, January  9, 2022 06:54:34 PM 430
      The TTEST Procedure
      Variable:  kodukai
      
      sex           Method              N        Mean     Std Dev     Std Err
      F                                85     48476.5     48816.5      5294.9
      M                               295     41494.9     50309.4      2929.1
      Diff (1-2)    Pooled                     6981.6     49981.5      6152.9
      Diff (1-2)    Satterthwaite              6981.6                  6051.1
      
      sex           Method            Minimum     Maximum
      F                                     0      300000
      M                                     0      350000
      Diff (1-2)    Pooled                               
      Diff (1-2)    Satterthwaite                        
      
      sex           Method               Mean       95% CL Mean        Std Dev
      F                               48476.5     37947.0  59005.9     48816.5
      M                               41494.9     35730.2  47259.6     50309.4
      Diff (1-2)    Pooled             6981.6     -5116.7  19079.8     49981.5
      Diff (1-2)    Satterthwaite      6981.6     -4982.1  18945.2            
      
      sex           Method             95% CL Std Dev
      F                               42420.0  57502.3
      M                               46550.9  54733.2
      Diff (1-2)    Pooled            46658.5  53818.0
      Diff (1-2)    Satterthwaite                     
      
      Method           Variances        DF    t Value    Pr > |t|
      Pooled           Equal           378       1.13      0.2572
      Satterthwaite    Unequal      139.55       1.15      0.2506
      
                    Equality of Variances
      Method      Num DF    Den DF    F Value    Pr > F
      Folded F       294        84       1.06    0.7570
      
    3. 結果の見方 : 二段階、このデータでは?
      • 出力には両群のヒストグラムや推定された分布形状が表示されていて視覚的にも理解しやすい。

      • 等分散と言えるか? : 「Equality of Variances」の「Prob > F'」の項の値を見る
        • 身長(62.8%)は等分散であると言える ===> t検定 : Equal の項
        • 体重(0.01%未満)は等分散であると言えない ===> Welchの検定 : Unequal の項
        • 胸囲(0.01%未満)は等分散であると言えない ===> Welchの検定 : Unequal の項
        • 小遣い(75.7%)は等分散であると言える ===> t検定 : Equal の項

      • 平均に差があると言えるか? : Prob > |T|
        • 身長(0.01%未満, Equal の項)や体重(0.01%未満, Unequal の項)、胸囲(0.01%未満, Unequal の項)は性別によって平均に差があると言える。
        • 小遣い(25.7%, Equal の項)は性別によって平均に差があるとは言えない。
        • ただし、この手法の前提条件である正規性について、 体重、胸囲、小遣い額の分布のどちらか一方、または両方が 正規分布とは言えないので、身長以外の結論は信憑性に欠ける。 よって、体重、胸囲、小遣い額については次節で説明するノンパラメトリック検定の結果を待つ必要がある。

      • 検定基準
        • どれくらいの割合(確率)でその仮説が発生するか?
        • 確率が小さい ==> 稀なこと(普通ではない) ==> 有意(分散が等しいとは言えない、平均に差がある)
        • 5% 有意、1% 有意 : 今までの慣習から

    4. [演習4] 上記の結果を、自宅生/下宿生間の差として 検定した場合、身長、体重、胸囲、小遣い額に差があると言えるか 各自で結論付けてみよ

  10. ノンパラメトリック検定 : Wilcoxon 検定
    1. プログラム : les1205.sas

      
       /* Lesson 12-05 */
       /*    File Name = les1205.sas  01/11/22   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'StatM21/les1205-Results.txt' new;
      
      data gakusei;
        infile 'StatM21/StudAll21d.csv'
          firstobs=9 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input sex $ shintyou taijyuu kyoui 
              jitaku : $10. kodukai carryer $ tsuuwa;
      
      if sex=" " or shintyou="." or taijyuu="." then delete; 
      
      proc print data=gakusei(obs=5);
      run;
      
      proc npar1way data=gakusei wilcoxon;   : Wilcoxon 検定
        class sex;                           : 分類したい特性変数の指定
        var shintyou taijyuu kyoui kodukai;  : 比較したい変量名
      run;
      
    2. 出力
      
                                            Sunday, January  9, 2022 06:54:43 PM 433
      The NPAR1WAY Procedure
               Wilcoxon Scores (Rank Sums) for Variable shintyou
                          Classified by Variable sex
       
                         Sum of      Expected       Std Dev          Mean
      sex       N        Scores      Under H0      Under H0         Score
      F        94        5574.0       19646.0    1027.55974     59.297872
      M       323       81579.0       67507.0    1027.55974    252.566563
      
                      Average scores were used for ties.
      
                          Wilcoxon Two-Sample Test
                                                      t Approximation
      Statistic           Z    Pr < Z    Pr > |Z|    Pr < Z  Pr > |Z|
       5574.000    -13.6941    <.0001      <.0001    <.0001    <.0001
      
                 Z includes a continuity correction of 0.5.
      
                                            Sunday, January  9, 2022 06:54:43 PM 434
      The NPAR1WAY Procedure
              Kruskal-Wallis Test
       
      Chi-Square        DF    Pr > ChiSq
        187.5415         1        <.0001
      
                                            Sunday, January  9, 2022 06:54:43 PM 435
      The NPAR1WAY Procedure
               Wilcoxon Scores (Rank Sums) for Variable taijyuu
                          Classified by Variable sex
       
                         Sum of      Expected       Std Dev          Mean
      sex       N        Scores      Under H0      Under H0         Score
      F        94        6569.0       19646.0    1027.50549     69.882979
      M       323       80584.0       67507.0    1027.50549    249.486068
      
                      Average scores were used for ties.
      
                          Wilcoxon Two-Sample Test
                                                      t Approximation
      Statistic           Z    Pr < Z    Pr > |Z|    Pr < Z  Pr > |Z|
       6569.000    -12.7265    <.0001      <.0001    <.0001    <.0001
      
                 Z includes a continuity correction of 0.5.
      
                                            Sunday, January  9, 2022 06:54:43 PM 436
      The NPAR1WAY Procedure
              Kruskal-Wallis Test
       
      Chi-Square        DF    Pr > ChiSq
        161.9750         1        <.0001
      
                                            Sunday, January  9, 2022 06:54:43 PM 437
      The NPAR1WAY Procedure
                Wilcoxon Scores (Rank Sums) for Variable kyoui
                          Classified by Variable sex
       
                         Sum of      Expected       Std Dev          Mean
      sex       N        Scores      Under H0      Under H0         Score
      F        49       2464.50       3846.50    260.957108     50.295918
      M       107       9781.50       8399.50    260.957108     91.415888
      
                      Average scores were used for ties.
      
                          Wilcoxon Two-Sample Test
                                                      t Approximation
      Statistic           Z    Pr < Z    Pr > |Z|    Pr < Z  Pr > |Z|
       2464.500     -5.2940    <.0001      <.0001    <.0001    <.0001
      
                 Z includes a continuity correction of 0.5.
      
                                            Sunday, January  9, 2022 06:54:43 PM 438
      The NPAR1WAY Procedure
              Kruskal-Wallis Test
       
      Chi-Square        DF    Pr > ChiSq
         28.0464         1        <.0001
      
                                            Sunday, January  9, 2022 06:54:43 PM 439
      The NPAR1WAY Procedure
               Wilcoxon Scores (Rank Sums) for Variable kodukai
                          Classified by Variable sex
       
                         Sum of      Expected       Std Dev          Mean
      sex       N        Scores      Under H0      Under H0         Score
      F        85       18189.0      16192.50    882.905715    213.988235
      M       295       54201.0      56197.50    882.905715    183.732203
      
                      Average scores were used for ties.
      
                          Wilcoxon Two-Sample Test
                                                      t Approximation
      Statistic           Z    Pr > Z    Pr > |Z|    Pr > Z  Pr > |Z|
       18189.00      2.2607    0.0119      0.0238    0.0122    0.0243
      
                 Z includes a continuity correction of 0.5.
      
                                            Sunday, January  9, 2022 06:54:43 PM 440
      The NPAR1WAY Procedure
              Kruskal-Wallis Test
       
      Chi-Square        DF    Pr > ChiSq
          5.1134         1        0.0237
      
    3. 結果の見方 :
      • 「Wilcoxon Two-Sample Test」の「Prob > |Z|」(両側検定)の項を見る。
      • この手法では身長/体重/胸囲/小遣いの検定結果はパラメトリック手法と同じであった。

      • 身長(0.01%未満)や体重(0.01%未満)、胸囲(0.01%未満)は性別によって平均に差があると言える。
      • 小遣い(2.4%)は性別によって平均に差があるとは言えない(5%有意で)。

    4. [演習5] 上記では性別で分類した時の差を見た。 自宅生/下宿生の別で検定した場合、身長や(体重、胸囲)、小遣い額に差があると言えるか 各自で結論付けてみよ

  11. 次回は、... : 01月18日(火)

  12. 【念の為に】リモート講義開講時の注意

  13. [おまけ] 単変量、二変量を視覚的に捉えると? by Mathematica
    1. 1 dim. Normal Distribution [式(a)] 1次元正規分布 N(0,1)
    2. 2 dim. Normal Distribution [式(b)] 2次元正規分布 N({0,0},{1,1}, ρ=0.0)
    3. 2 dim. Normal Distribution [式(c)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)
    4. 2 dim. Normal Distribution [式(d)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、y=1 で切り出し
    5. 2 dim. Normal Distribution [式(e)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、x+y=2 で切り出し