平均値の比較

統計解析 03 クラス : 第07回 (11/20/03)

今回は、単変量の集計としてよく利用される平均値の検定方法について紹介する。 仮定条件や判断基準等、一見複雑に見える論理展開なので、 混乱しないように理解してほしい。

  1. 平均値の比較 : 2つのグループの「平均値」に差があると言えるのか?

  2. 正規性の確認
    各分布を正規分布と見て良いかは、 第4回 の第4節で説明した「proc univariate」の「Normal Probability Plot」で判断する。 「plot オプション」を忘れないように。
    1. プログラム : les0701.sas
       /* Lesson 07-1 */
       /*    File Name = les0701.sas   11/20/03   */
      
      data gakusei;
        infile 'all03b.prn' firstobs=2;
        input sex $ height weight chest 
              jitaku $ kodukai carrier $ tsuuwa;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc sort data=gakusei;
        by sex;
      run;
      proc univariate data=gakusei plot;
        var height weight chest kodukai;
        by sex;
      run;
      
    2. 出力結果 : les0701.lst
                                    SAS システム                            26
                                            21:59 Wednesday, November 19, 2003
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=HEIGHT
                                   Normal Probability Plot              
               172.5+                                             +*++*+
                    |                                   ***+**+**+      
                    |                        ***********+               
                    |                 ********++                        
                    |         +*******+                                 
               147.5++*++*+++**                                         
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            33
                                            21:59 Wednesday, November 19, 2003
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=WEIGHT
                                   Normal Probability Plot              
                57.5+                                       +*+*+*+++*+ 
                    |                          *******+*+*+*            
                47.5+                **********+++                      
                    |       +*+**+**+++                                 
                37.5+++*+++*                                            
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            40
                                            21:59 Wednesday, November 19, 2003
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=CHEST
                                   Normal Probability Plot              
                92.5+                                         ++++*+++++
                    |                         ********++**++++*         
                82.5+               * **+**+*+*++++                     
                    |       ++*++*+*+++                                 
                72.5++++++*+                                            
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            47
                                            21:59 Wednesday, November 19, 2003
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=KODUKAI
                                   Normal Probability Plot              
              325000+                                                 * 
                    |                                                   
                    |                                             *     
              175000+                                        * **+++++++
                    |                                  +*****++++       
                    |                         +*********                
               25000+ *   * ** *****************                        
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            54
                                            21:59 Wednesday, November 19, 2003
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=HEIGHT
                                   Normal Probability Plot              
               187.5+                                                 **
                    |                                      ******+*+*++ 
                    |                              ********++           
               172.5+                   ************                    
                    |          **********+                              
                    | * *+***+**+                                       
               157.5+*++                                                
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            61
                                            21:59 Wednesday, November 19, 2003
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=WEIGHT
                                   Normal Probability Plot              
                 105+                                                  *
                    |                                                 * 
                    |                                             * * ++
                  75+                                    ********+++++  
                    |                     ****************              
                    |     *****************+                            
                  45+**++++++++                                         
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            68
                                            21:59 Wednesday, November 19, 2003
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=CHEST
                                   Normal Probability Plot              
                 115+                                            *   * +
                    |                                      ***+*+++++++ 
                    |                         ********+*+*++            
                  85+            *************++                        
                    |    ++*+*+**++++                                   
                    |++++                                               
                  55+  *                                                
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            75
                                            21:59 Wednesday, November 19, 2003
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=KODUKAI
                                   Normal Probability Plot              
              325000+                                                  *
                    |                                                   
                    |                                                *  
              175000+                                      ***** ***++++
                    |                                 ******+++++       
                    |                         +++*****++                
               25000+* * *************************                      
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 解釈
      • 基準線にどの程度乗っているかで判断する

      • 正規分布と言っても良さそう : 身長(男, 女)、体重(女)、胸囲(女)
      • 正規分布から若干離れてる : 体重(男)、胸囲(男)
      • 正規分布とは言えなさそう : 小遣い額(男, 女)

      • 比較する両群ともが正規分布の場合は、パラメトリック検定が使える。<=== 身長
      • 比較する両群の少なくとも片方が正規分布でない場合は、ノンパラメトリック検定を使う。<=== 体重、胸囲、小遣い額

  3. パラメトリック検定 : t 検定、Welch の検定
    1. プログラム : les0702.sas
       /* Lesson 07-2 */
       /*    File Name = les0702.sas   11/20/03   */
      
      data gakusei;
        infile 'all03b.prn' firstobs=2;
        input sex $ height weight chest 
              jitaku $ kodukai carrier $ tsuuwa;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc ttest data=gakusei;               : t検定
        class sex;                           : 分類したい特性変数の指定
        var height weight chest kodukai;     : 比較したい変量名
      run;                                   : 
      
    2. 出力結果 : les0702.lst
                                    SAS システム                             2
                                            21:59 Wednesday, November 19, 2003
                                  TTEST PROCEDURE
      Variable: HEIGHT                                               
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        81        159.19629630          5.55928153          0.61769795
      M       173        172.16184971          5.31157589          0.40383164
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -17.5687    150.2      0.0001
      Equal     -17.8622    252.0      0.0000
      
      For H0: Variances are equal, F' = 1.10    DF = (80,172)   Prob>F' = 0.6162
      
                                    SAS システム                             3
                                            21:59 Wednesday, November 19, 2003
                                  TTEST PROCEDURE
      Variable: WEIGHT                                               
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        55         48.54545455          4.69364496          0.63289096
      M       173         62.03352601          7.63858228          0.58075066
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -15.7027    149.9      0.0001
      Equal     -12.3634    226.0      0.0000
      
      For H0: Variances are equal, F' = 2.65    DF = (172,54)   Prob>F' = 0.0000
      
                                    SAS システム                             4
                                            21:59 Wednesday, November 19, 2003
                                  TTEST PROCEDURE
      Variable: CHEST                                                
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        28         83.25000000          4.35145782          0.82234823
      M        59         88.64406780          8.73116241          1.13670053
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal    -3.8447     84.7      0.0002
      Equal      -3.0855     85.0      0.0027
      
      For H0: Variances are equal, F' = 4.03    DF = (58,27)   Prob>F' = 0.0001
      
                                    SAS システム                             5
                                            21:59 Wednesday, November 19, 2003
                                  TTEST PROCEDURE
      Variable: KODUKAI                                              
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        75      53846.66666667      51734.44232349       5973.77884037
      M       164      50402.43902439      52429.17741412       4094.03093474
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal     0.4756    145.3      0.6351
      Equal       0.4732    237.0      0.6365
      
      For H0: Variances are equal, F' = 1.03    DF = (163,74)   Prob>F' = 0.9130
      
    3. 結果の見方 : 二段階、このデータでは?
      • 等分散と言えるか? : Prob> F'
        • 身長(61.6%)と小遣い(91.3%)は等分散であると言える ===> t検定 : Equal の項
        • 体重(0.00%)と胸囲(0.01%)は等分散であると言えない ===> Welchの検定 : Unequal の項
      • 平均に差があると言えるか? : Prob>|T|
        • 身長(0.00%, Equal の項)や体重(0.01%, Unequal の項)、胸囲(0.02%, Unequal の項)は性別によって平均に差があると言える。
        • 小遣い(63.7%, Equal の項)は性別によって平均に差があるとは言えない。
        • ただし、体重、胸囲、小遣い額の分布のどちらか一方、または両方が 正規分布とは言えないので、身長以外の結論は信憑性に欠ける。 よって、体重、胸囲、小遣い額については次節で説明するノンパラメトリック検定の結果を待つ必要がある。

      • 検定基準
        • どれくらいの割合(確率)でその仮説が発生するか?
        • 確率が小さい ==> 稀なこと(普通ではない) ==> 差がある(有意)
        • 5% 有意、1% 有意 : 今までの慣習から

    4. [演習1] 上記の結果を、自宅生/下宿生間の差として 検定した場合、身長、体重、胸囲、小遣い額に差があると言えるか 各自で結論づけてみよ

  4. ノンパラメトリック検定 : Wilcoxon 検定
    1. プログラム : les0703.sas

       /* Lesson 07-3 */
       /*    File Name = les0703.sas   11/20/03   */
      
      data gakusei;
        infile 'all03b.prn' firstobs=2;
        input sex $ height weight chest 
              jitaku $ kodukai carrier $ tsuuwa;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc npar1way data=gakusei wilcoxon;   : wilcoxon 検定
        class sex;                           : 分類したい特性変数の指定
        var height weight chest kodukai;     : 比較したい変量名
      run;                                   : 
      
    2. 出力結果 : les0703.lst
                                    SAS システム                             2
                                            21:59 Wednesday, November 19, 2003
                         N P A R 1 W A Y  P R O C E D U R E
      
                  Wilcoxon Scores (Rank Sums) for Variable HEIGHT
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           81       3880.0   10327.5000   545.310227    47.901235
         M          173      28505.0   22057.5000   545.310227   164.768786
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             3
                                            21:59 Wednesday, November 19, 2003
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  3880.00   Z = -11.8226   Prob > |Z| = 0.0001
      
               T-Test Approx. Significance = 0.0001
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  139.80   DF =  1   Prob > CHISQ = 0.0001
      
                                    SAS システム                             4
                                            21:59 Wednesday, November 19, 2003
                         N P A R 1 W A Y  P R O C E D U R E
      
                  Wilcoxon Scores (Rank Sums) for Variable WEIGHT
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           55       1899.0    6297.5000   425.639144    34.527273
         M          173      24207.0   19808.5000   425.639144   139.924855
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             5
                                            21:59 Wednesday, November 19, 2003
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  1899.00   Z = -10.3327   Prob > |Z| = 0.0001
      
               T-Test Approx. Significance = 0.0001
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  106.79   DF =  1   Prob > CHISQ = 0.0001
      
                                    SAS システム                             6
                                            21:59 Wednesday, November 19, 2003
                         N P A R 1 W A Y  P R O C E D U R E
      
                   Wilcoxon Scores (Rank Sums) for Variable CHEST
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           28        800.0       1232.0   109.525696   28.5714286
         M           59       3028.0       2596.0   109.525696   51.3220339
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             7
                                            21:59 Wednesday, November 19, 2003
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  800.000   Z = -3.93971   Prob > |Z| = 0.0001
      
               T-Test Approx. Significance = 0.0002
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  15.557   DF =  1   Prob > CHISQ = 0.0001
      
                                    SAS システム                             8
                                            21:59 Wednesday, November 19, 2003
                         N P A R 1 W A Y  P R O C E D U R E
      
                  Wilcoxon Scores (Rank Sums) for Variable KODUKAI
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           75    9553.5000       9000.0   493.189786   127.380000
         M          164   19126.5000      19680.0   493.189786   116.625000
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             9
                                            21:59 Wednesday, November 19, 2003
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  9553.50   Z =  1.12127   Prob > |Z| = 0.2622
      
               T-Test Approx. Significance = 0.2633
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  1.2595   DF =  1   Prob > CHISQ = 0.2617
      
    3. 結果の見方 : Prob>|Z|
      • この手法では身長/体重/胸囲/小遣いの検定結果はパラメトリック手法と同じであった。

      • 身長(0.01%)や体重(0.01%)、胸囲(0.01%)は性別によって平均に差があると言える。
      • 小遣い(26.2%)は性別によって平均に差があるとは言えない。

    4. [演習2] 上記の結果を、自宅生/下宿生間の差として 検定した場合、身長、体重、胸囲、小遣い額に差があると言えるか 各自で結論づけてみよ

  5. 対応のある 2群の検定
    1. プログラム : les0704.sas

       /* Lesson 07-4 */
       /*    File Name = les0704.sas   11/20/03   */
      
      data pair;                                     :
        input x y @@;                                : @@ は 1行に複数のデータがあることを示す 
        dif=x-y;                                     : 差(difference)を計算する
      cards;                                         : データをプログラム内に記述する
        3.51 3.39  3.07 3.39  3.29 3.20  3.03 3.11   : x1,y1,  x2,y2,  x3,y3,  x4,y4,
        3.38 3.17  3.30 3.09  3.15 3.17  3.25 3.09   : x5,y5,  x6,y6,  x7,y7,  x8,y8
      ;                                              :
                                                     :
      proc print data=pair;                          :
      run;                                           :
      proc univariate data=pair plot;                :
        var dif;                                     : 差について
      run;                                           :
      
    2. 出力結果 : les0704.lst
                                    SAS システム                             1
                                            21:59 Wednesday, November 19, 2003
      
                            OBS      X       Y      DIF
      
                             1     3.51    3.39     0.12
                             2     3.07    3.39    -0.32
                             3     3.29    3.20     0.09
                             4     3.03    3.11    -0.08
                             5     3.38    3.17     0.21
                             6     3.30    3.09     0.21
                             7     3.15    3.17    -0.02
                             8     3.25    3.09     0.16
      
                                    SAS システム                             2
                                            21:59 Wednesday, November 19, 2003
                                Univariate Procedure
      Variable=DIF
                                      Moments
      
                      N                 8  Sum Wgts          8
                      Mean        0.04625  Sum            0.37
                      Std Dev    0.180629  Variance   0.032627
                      Skewness   -1.31523  Kurtosis   1.511099
                      USS          0.2455  CSS        0.228388
                      CV         390.5489  Std Mean   0.063862
                      T:Mean=0   0.724218  Pr>|T|       0.4924
                      Num ^= 0          8  Num > 0           5
                      M(Sign)           1  Pr>=|M|      0.7266
                      Sgn Rank          7  Pr>=|S|      0.3594
      
                                    SAS システム                             5
                                            21:59 Wednesday, November 19, 2003
                                Univariate Procedure
      Variable=DIF
                  Stem Leaf                     #             Boxplot
                     2 11                       2                |   
                     1 26                       2             +-----+
                     0 9                        1             |  +  |
                    -0 82                       2             +-----+
                    -1                                           |   
                    -2                                           |   
                    -3 2                        1                |   
                       ----+----+----+----+              
                   Multiply Stem.Leaf by 10**-1          
      
                                    SAS システム                             6
                                            21:59 Wednesday, November 19, 2003
                                Univariate Procedure
      Variable=DIF
                                   Normal Probability Plot              
                0.25+                                  *++++*           
                    |                           *++*+++                 
                    |                       *++++                       
               -0.05+                *+++*++                            
                    |            +++++                                  
                    |      ++++++                                       
               -0.35+ +++++     *                                       
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方 :
      • T:Mean=0 : 平均=0 (帰無仮説)の検定のための t 統計量
      • Pr>=|T| : t 統計量の両側有意確率
        • t 統計量を適用する場合は、差の分布が正規分布に従っていることを仮定している
        • 差の分布が正規分布をしているかを確認するには : Normal Probability Plot
      • M(Sign) : 母集団の中央値がゼロであるという仮説を検定するための符合付き順位和検定統計量
      • Pr>=|M| : 母集団の中央値がゼロであるという仮説の下で、その符合統計量よりも大きい絶対値が得られる確率
      • Sgn Rank : 平均=0 (帰無仮説)の検定のための符合付き順位和検定統計量
      • Pr>=|S| : 符合付き順位和検定統計量のための近似的有意確率

      • この例では、ほぼ正規分布と言えそうだ。少数サンプルなので確度は低い。
      • どの統計指標を用いても、差がゼロであることが結構な確率で起りそう : 49.2%, 72.7%, 35.9%
        つまり、差があるとは言えない。薬が効いているとは断定できない。

  6. レポートの作成手順
    SAS の「計算結果(Output エリアの内容)」は、 それをファイルに保存(file コマンド)後、 Windows マシンに転送して(FFFTP)、利用する。
    計算結果は全部を引用するのではなく、必要部分だけを切り出し、 説明を付与する事によって完成せよ。
    UNIX マシン上でレポートを作成することも不可能ではないが、 日本語の入力方法の問題や、プリンタが接続されていない事等があるので、 現実的には教室の Windows マシン(や個人所有のパソコン)で 処理するのが妥当であろう。 そのためには「転送」の処理が中間に介在する必要がある。

    1. プログラムの作成、デバッグ
    2. 解析結果の保存 : Outputエリアの内容をファイルに保存
      1. プログラムを実行(SUBmit)する前に、
        Outputエリアの過去の記録を消去しておく: [入力] clear
        この処理をしておかないと、過去の全ての(不要な、多大な)記録が全部保存される。
      2. プログラムを実行(SUBmit)
      3. 出力結果の保存 :
        Outputエリアのコマンド行で : [入力例] file 'les0799.lst'
        プログラムの保存と同じコマンドだが、保存対象が異なる。
    3. 保存した解析結果を Windows 側に転送(FFFTP)
        転送モードに注意せよ。
    4. ワープロやエディタを使って、レポートを作成。
        出力の必要部分だけを切り出して、レポートに挿入する。
    5. 紙に印刷するか、電子メールで提出。

  7. レポート提出 : これまでの講義で紹介した SAS の手法(プロシジャー)を利用して、 統計解析を行ってみよ。 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 対象に選んだかの理由等も報告する事。考察も大事。
    1. 対象データ : 以下の 1〜3 の中から 最低、2つ。
      1. 皆さんから収集したデータ(all03b.prn)
      2. 個人が収集した興味あるデータ(個人ごとに異なる) : 2つ以上あるはず
      3. その他

    2. 提出期限 : 12月3日(水) 16:30 まで : 電子メールかワープロ(or エディタ)で。手書きは不可。
      注意1: 紙で提出する場合は、事務所の受付終了時刻に注意すること。提出日は事務室の受領印で判断する。
      注意2: 電子メールでの場合は、添付ファイルは使わないこと。 提出用メールアドレスは「hayashi@peter.rd.dnc.ac.jp」である。 また、提出日時はメールヘッダーから判断する。私からは受領確認メールを出すので、それを受け取った段階で提出作業完了とする。
      注意3: 連絡ページ に受領した者の学籍番号を掲載するので、確認に使ってほしい。

    3. 作業内容 : 以下の点に注意しながらレポートを作成しよう。
      1. 解析対象とするデータの数は、最低 2つとする(上限は設けない)。 1つだけではダメ
      2. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 解析対象に選んだかの理由等も報告する事。 加えて、特に得られた知見からの考察は大事。
      3. レポートは他人への、もの事の説明のための文書である!!
      4. 手入力を少なくして SAS の出力を最大限有効利用せよ。 しかし、不要な部分はカットせよ。ダラダラと引用しないこと。
      5. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    4. 必要事項 : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • 使ったデータ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

      • 講義の進め方や内容等について、感想や意見も。

  8. 次回は、... : 12月04日 14:45

  9. [おまけ1] 出力サイズの指定とコマンドプロンプトからの実行
    1. 出力画面のサイズを指定したい場合
      以下の例では 横幅(カラム数)が 72桁で、縦幅が 20行を指定している。 コメントの直後辺りに入れる。
      options linesize=72 pagesize=20;
      
    2. sas のプログラムが完成している場合 : エディタで編集できる人用
      既存のプログラムを実行するだけであれば、 UNIX のコマンドラインで以下のコマンドを入力すれば実行できる。 以下の例では les9988.sas と言うファイルに SAS のプログラムが 保存されていた場合の実行方法である。 出力(OUTPUT)は les9988.lst に、ログ(LOG)は les9988.log に得られる。
      sas les9999.sas
      
[DIR]講義のホームページへ戻ります