平均値の比較

統計処理 01 クラス : 第9回目(06/29/00)

今回は、前回時間切れとなった部分(6節)を説明した後、 単変量の集計としてよく利用される平均値の検定方法について紹介する。

  1. 各グループごとでの集計、基礎統計量 : 前週の資料を参照のこと。

  1. 平均値の比較 : 2つのグループの平均値に差があるか?

  2. t 検定、Welch の検定 : パラメトリック検定 : 分布が正規分布に従っているかに依って。
    1. プログラム : les0901.sas
       /* Lesson 9-1 */
       /*    File Name = les0901.sas   06/29/00   */
      
      data gakusei;
        infile 'all00.prn';
        input seibetsu $ height weight chest jitaku $ kodukai;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc ttest data=gakusei;               : t検定
        class seibetsu;                      : 分類したい特性変数の指定
        var height weight chest kodukai;     : 比較したい変量名
      run;                                   : 
      
    2. 出力結果 : les0901.lst
      
                                    SAS システム                             2
                                                  14:48 Tuesday, June 27, 2000
      
                                  TTEST PROCEDURE
      
      Variable: HEIGHT                                               
      
      SEIBETSU       N              Mean           Std Dev         Std Error
      ----------------------------------------------------------------------
      F             39      160.14615385        5.46952544        0.87582501
      M            118      172.03644068        5.25083087        0.48337816
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -11.8860     62.8      0.0001
      Equal     -12.1341    155.0      0.0000
      
      For H0: Variances are equal, F' = 1.09    DF = (38,117)   Prob>F' = 0.7226
      
                                    SAS システム                             3
                                                  14:48 Tuesday, June 27, 2000
      
                                  TTEST PROCEDURE
      
      Variable: WEIGHT                                               
      
      SEIBETSU       N              Mean           Std Dev         Std Error
      ----------------------------------------------------------------------
      F             19       49.00000000        4.29469958        0.98527165
      M            118       62.21779661        6.57565611        0.60533821
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -11.4304     33.4      0.0001
      Equal      -8.4615    135.0      0.0000
      
      For H0: Variances are equal, F' = 2.34    DF = (117,18)   Prob>F' = 0.0408
      
                                    SAS システム                             4
                                                  14:48 Tuesday, June 27, 2000
      
                                  TTEST PROCEDURE
      
      Variable: CHEST                                                
      
      SEIBETSU       N              Mean           Std Dev         Std Error
      ----------------------------------------------------------------------
      F              9       85.22222222        2.33333333        0.77777778
      M             43       89.67441860        6.20568453        0.94635802
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal    -3.6346     34.7      0.0009
      Equal      -2.1073     50.0      0.0401
      
      For H0: Variances are equal, F' = 7.07    DF = (42,8)   Prob>F' = 0.0066
      
                                    SAS システム                             5
                                                  14:48 Tuesday, June 27, 2000
      
                                  TTEST PROCEDURE
      
      Variable: KODUKAI                                              
      
      SEIBETSU       N              Mean           Std Dev         Std Error
      ----------------------------------------------------------------------
      F             36    46486.11111111    54719.47761226     9119.91293538
      M            110    54227.27272727    52543.32578203     5009.80954477
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal    -0.7440     57.6      0.4599
      Equal      -0.7595    144.0      0.4488
      
      For H0: Variances are equal, F' = 1.08    DF = (35,109)   Prob>F' = 0.7313
      
    3. 結果の見方 : 二段階、このデータでは?
      • 等分散か? : Prob>F'
        • 身長(72.3%)と小遣い(73.1%)は等分散であると言える ===> t検定 : Equal
        • 胸囲(0.7%)は等分散であると言えない ===> Welchの検定 : Unequal
        • 体重は等分散であると... : 4.1%
          1% で検定すると、等分散であると言える。1% 有意。
          5% で検定すると、等分散であると言えない。5% 有意ではない。
      • 平均に差があるか? : Prob>|T|
        • 身長(0.0%)や体重(0.0%)、胸囲(0.0%)は性別によって平均に差があると言える。
        • 小遣い(44.9%)は性別によって平均に差があるとは言えない。

      • 検定基準
        • 確率が小さい ==> 稀なこと(普通ではない) ==> 差がある(有意)
        • 5% 有意、1% 有意 : 今までの慣習から

    4. [例] 過去の事例 : 身長、体重、胸囲、小遣い : サンプル数の問題から
      この例ではどう言う結論が得られるか? ===> 各自で結論づけてみよ
                                 SAS システム                                8
                                             15:45 Thursday, November 21, 1996
      
                                     TTEST PROCEDURE
      
      Variable: SHINTYOU
      
      SEIBETSU       N                Mean          Std Dev        Std Error
      ----------------------------------------------------------------------
      F            180        157.55277778       4.71964195       0.35178134
      M             37        170.92162162       5.29460601       0.87042787
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -14.2400     48.5      0.0001
      Equal     -15.3635    215.0      0.0000
      
      For H0: Variances are equal, F' = 1.26   DF = (36,179)   Prob>F' = 0.3334
      
                                 SAS システム                                9
                                             15:45 Thursday, November 21, 1996
      
                                     TTEST PROCEDURE
      
      Variable: TAIJYUU
      
      SEIBETSU       N                Mean          Std Dev        Std Error
      ----------------------------------------------------------------------
      F             53         48.54716981       4.83169041       0.66368372
      M             37         63.51081081       7.69479564       1.26501661
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -10.4747     55.6      0.0001
      Equal     -11.3283     88.0      0.0000
      
      For H0: Variances are equal, F' = 2.54   DF = (36,52)   Prob>F' = 0.0022
      
                                 SAS システム                               10
                                             15:45 Thursday, November 21, 1996
      
                                     TTEST PROCEDURE
      
      Variable: KYOUI
      
      SEIBETSU       N                Mean          Std Dev        Std Error
      ----------------------------------------------------------------------
      F             26         81.96153846       3.13024944       0.61389242
      M             14         92.57142857       6.83558884       1.82688796
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal    -5.5051     16.0      0.0001
      Equal      -6.7578     38.0      0.0000
      
      For H0: Variances are equal, F' = 4.77   DF = (13,25)   Prob>F' = 0.0008
      
                                 SAS システム                               11
                                             15:45 Thursday, November 21, 1996
      
                                     TTEST PROCEDURE
      
      Variable: KOZUKAI
      
      SEIBETSU       N              Mean           Std Dev        Std Error
      ---------------------------------------------------------------------
      F            142    48598.59154930    44311.12756826    3718.50722204
      M             27    55925.92592593    50019.93904429    9626.34175736
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal    -0.7100     34.2      0.4825
      Equal      -0.7713    167.0      0.4416
      
      For H0: Variances are equal, F' = 1.27   DF = (26,141)   Prob>F' = 0.3727
      

    5. Wilcoxon 検定 : ノンパラメトリック検定 : 分布が正規分布にしたがっている必要はない
      ・少数例、医学分野、血圧、...
      1. プログラム : les0902.sas

         /* Lesson 9-2 */
         /*    File Name = les0902.sas   06/29/00   */
        
        data gakusei;
          infile 'all00.prn';
          input seibetsu $ height weight chest jitaku $ kodukai;
        
        proc print data=gakusei(obs=10);
        run;
        
        proc npar1way data=gakusei wilcoxon;   : wilcoxon 検定
          class seibetsu;                      : 分類したい特性変数の指定
          var height weight chest kodukai;     : 比較したい変量名
        run;                                   : 
        
      2. 出力結果 : les0902.lst
        
                                      SAS システム                             2
                                                    14:48 Tuesday, June 27, 2000
        
                           N P A R 1 W A Y  P R O C E D U R E
        
                    Wilcoxon Scores (Rank Sums) for Variable HEIGHT
                            Classified by Variable SEIBETSU
        
                                Sum of     Expected      Std Dev         Mean
           SEIBETSU     N       Scores     Under H0     Under H0        Score
        
           F           39     998.5000       3081.0   245.904427   25.6025641
           M          118   11404.5000       9322.0   245.904427   96.6483051
                           Average Scores Were Used for Ties
        
                 Wilcoxon 2-Sample Test (Normal Approximation)
                 (with Continuity Correction of .5)
        
                                      SAS システム                             3
                                                    14:48 Tuesday, June 27, 2000
        
                           N P A R 1 W A Y  P R O C E D U R E
        
                 S =  998.500   Z = -8.46670   Prob > |Z| = 0.0001
        
                 T-Test Approx. Significance = 0.0001
        
                 Kruskal-Wallis Test (Chi-Square Approximation)
                 CHISQ =  71.720   DF =  1   Prob > CHISQ = 0.0001
        
                                      SAS システム                             4
                                                    14:48 Tuesday, June 27, 2000
        
                           N P A R 1 W A Y  P R O C E D U R E
        
                    Wilcoxon Scores (Rank Sums) for Variable WEIGHT
                            Classified by Variable SEIBETSU
        
                                Sum of     Expected      Std Dev         Mean
           SEIBETSU     N       Scores     Under H0     Under H0        Score
        
           F           19        234.0       1311.0   160.254676   12.3157895
           M          118       9219.0       8142.0   160.254676   78.1271186
                           Average Scores Were Used for Ties
        
                 Wilcoxon 2-Sample Test (Normal Approximation)
                 (with Continuity Correction of .5)
        
                                      SAS システム                             5
                                                    14:48 Tuesday, June 27, 2000
        
                           N P A R 1 W A Y  P R O C E D U R E
        
                 S =  234.000   Z = -6.71743   Prob > |Z| = 0.0001
        
                 T-Test Approx. Significance = 0.0001
        
                 Kruskal-Wallis Test (Chi-Square Approximation)
                 CHISQ =  45.166   DF =  1   Prob > CHISQ = 0.0001
        
                                      SAS システム                             6
                                                    14:48 Tuesday, June 27, 2000
        
                           N P A R 1 W A Y  P R O C E D U R E
        
                     Wilcoxon Scores (Rank Sums) for Variable CHEST
                            Classified by Variable SEIBETSU
        
                                Sum of     Expected      Std Dev         Mean
           SEIBETSU     N       Scores     Under H0     Under H0        Score
        
           F            9    129.50000    238.50000   40.9912597   14.3888889
           M           43   1248.50000   1139.50000   40.9912597   29.0348837
                           Average Scores Were Used for Ties
        
                 Wilcoxon 2-Sample Test (Normal Approximation)
                 (with Continuity Correction of .5)
        
                                      SAS システム                             7
                                                    14:48 Tuesday, June 27, 2000
        
                           N P A R 1 W A Y  P R O C E D U R E
        
                 S =  129.500   Z = -2.64691   Prob > |Z| = 0.0081
        
                 T-Test Approx. Significance = 0.0108
        
                 Kruskal-Wallis Test (Chi-Square Approximation)
                 CHISQ =  7.0708   DF =  1   Prob > CHISQ = 0.0078
        
                                      SAS システム                             8
                                                    14:48 Tuesday, June 27, 2000
        
                           N P A R 1 W A Y  P R O C E D U R E
        
                    Wilcoxon Scores (Rank Sums) for Variable KODUKAI
                            Classified by Variable SEIBETSU
        
                                Sum of     Expected      Std Dev         Mean
           SEIBETSU     N       Scores     Under H0     Under H0        Score
        
           F           36   2520.50000       2646.0   218.765811   70.0138889
           M          110   8210.50000       8085.0   218.765811   74.6409091
                           Average Scores Were Used for Ties
        
                 Wilcoxon 2-Sample Test (Normal Approximation)
                 (with Continuity Correction of .5)
        
                                      SAS システム                             9
                                                    14:48 Tuesday, June 27, 2000
        
                           N P A R 1 W A Y  P R O C E D U R E
        
                 S =  2520.50   Z = -.571387   Prob > |Z| = 0.5677
        
                 T-Test Approx. Significance = 0.5686
        
                 Kruskal-Wallis Test (Chi-Square Approximation)
                 CHISQ = 0.32910   DF =  1   Prob > CHISQ = 0.5662
        
      3. 結果の見方 : Prob>|Z|
        • 分布が不明なときはノンパラメトリック手法を使う
        • この手法では身長/体重/胸囲/小遣いの検定結果はパラメトリック手法と同じだった。

      4. 対応のある2群の検定 : 差の分布が正規分布に従っている必要がある
        • 薬の投与前後での測定、運動の前後での測定、実験の前後、...
        • proc univariate の中で表示されている
        • 詳しくは配布資料を参照のこと

      5. レポート提出 : 7月6日にでも実習してください。
        前期期間中の演習例を参考にして統計解析を行ってみよ。
        1. 対象データ : 以下の 1〜3 の中から 最低、2つ。1の中から 2つ選んでも 2つとは認ない。
          1. 4年間の学生のアンケートデータ(all00.prn)
            または、
          2. 連休中に収集してもらった興味あるデータ(個人ごとに異なるはず)
          3. その他

        2. 提出期限 : 7月7日(金) 17:50(JST) までに : 電子メールかワープロ(or エディタ)で。手書きは不可。 電子メールの場合は直接(タイムスタンプで判断)、 紙媒体の場合は事務室宛てに(事務室の受領印で判断)。
        3. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 解析対象に選んだかの理由等も報告する事。 加えて、特に得られた知見からの考察は大事。
        4. レポートは他人への、もの事の説明のための文書である!!
        5. 手入力を少なくして SAS の出力を最大限有効利用せよ。 しかし、不要な部分はカットせよ。だらだらと引用しないこと。

        6. 前期期間中の講義の、進め方、内容等について、感想や意見も。

        7. 夏休み中に、新たにデータを収集しておくこと。電子化して保存。次回以降のレポートに利用。

      6. 次回は、... :
        • 7月06日 :
          レポート作成 : 各自で
          要請があれば来ます。
        • 9月28日 14:45 :
          後期の日程、進め方 : 単位取得希望者は出席のこと
          (二変量の関係、単回帰分析、...)
      [DIR]講義のホームページへ戻ります