平均値の比較

統計処理 01 クラス : 第11回(06/27/02)

今回は、単変量の集計としてよく利用される平均値の検定方法について紹介する。 仮定条件や判断基準等、一見複雑に見える論理展開なので、 混乱しないように理解してほしい。

  1. 平均値の比較 : 2つのグループの「平均値」に差があると言えるのか?

  2. t 検定、Welch の検定 : パラメトリック検定
    1. プログラム : les1101.sas
       /* Lesson 11-1 */
       /*    File Name = les1101.sas   06/27/02   */
      
      data gakusei;
        infile 'all02.prn' firstobs=2;
        input sex $ height weight chest 
              jitaku $ kodukai carrier $ tsuuwa;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc ttest data=gakusei;               : t検定
        class sex;                           : 分類したい特性変数の指定
        var height weight chest kodukai;     : 比較したい変量名
      run;                                   : 
      
    2. 出力結果 : les1101.lst
      
                                    SAS システム                             2
                                                   15:02 Monday, June 17, 2002
                                  TTEST PROCEDURE
      Variable: HEIGHT                                               
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        72        159.27638889          5.68674003          0.67018874
      M       161        172.09751553          5.38639432          0.42450734
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -16.1613    130.1      0.0001
      Equal     -16.5010    231.0      0.0000
      
      For H0: Variances are equal, F' = 1.11   DF = (71,160)   Prob>F' = 0.5711
      
                                    SAS システム                             3
                                                   15:02 Monday, June 17, 2002
                                  TTEST PROCEDURE
      Variable: WEIGHT                                               
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        49         48.36734694          4.94424698          0.70632100
      M       161         62.10062112          7.75751649          0.61137795
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -14.7011    125.7      0.0001
      Equal     -11.6803    208.0      0.0000
      
      For H0: Variances are equal, F' = 2.46   DF = (160,48)   Prob>F' = 0.0005
      
                                    SAS システム                             4
                                                   15:02 Monday, June 17, 2002
                                  TTEST PROCEDURE
      Variable: CHEST                                                
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        26         83.30769231          4.51459173          0.88538428
      M        55         88.65454545          8.42662927          1.13624646
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal    -3.7119     77.6      0.0004
      Equal      -3.0297     79.0      0.0033
      
      For H0: Variances are equal, F' = 3.48   DF = (54,25)   Prob>F' = 0.0011
      
                                    SAS システム                             5
                                                   15:02 Monday, June 17, 2002
                                  TTEST PROCEDURE
      Variable: KODUKAI                                              
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        67      51619.40298507      52047.69735193       6358.63826551
      M       152      51223.68421053      53478.74460087       4337.69897472
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal     0.0514    129.5      0.9591
      Equal       0.0509    217.0      0.9595
      
      For H0: Variances are equal, F' = 1.06   DF = (151,66)   Prob>F' = 0.8172
      
    3. 結果の見方 : 二段階、このデータでは?
      • 等分散と言えるか? : Prob> F'
        • 身長(57.1%)と小遣い(81.7%)は等分散であると言える ===> t検定 : Equal の項
        • 体重(0.1%)と胸囲(0.1%)は等分散であると言えない ===> Welchの検定 : Unequal の項
      • 平均に差があると言えるか? : Prob>|T|
        • 身長(0.0%, Equal の項)や体重(0.0%, Unequal の項)、胸囲(0.0%, Unequal の項)は性別によって平均に差があると言える。
        • 小遣い(96.0%, Equal の項)は性別によって平均に差があるとは言えない。 ただし、小遣い額の分布は正規分布とは言えないので、この結論は信憑性に欠ける。 よって、次節で説明するノンパラメトリック検定の結果を待つ必要がある。

      • 検定基準
        • どれくらいの割合(確率)でその仮説が発生するか?
        • 確率が小さい ==> 稀なこと(普通ではない) ==> 差がある(有意)
        • 5% 有意、1% 有意 : 今までの慣習から

    4. [演習1] 皆さんだけのデータ(38名)では、 どう言う結論が得られるか? ===> 各自で結論づけてみよ
      プログラム : les1101b.sas、 出力結果 : les1101b.lst

    5. [演習2] 上記の結果を、自宅生/下宿生間の差として 検定した場合、身長、体重、胸囲、小遣い額に差があると言えるか 各自で結論づけてみよ

  3. Wilcoxon 検定 : ノンパラメトリック検定 :
    1. プログラム : les1102.sas

       /* Lesson 11-2 */
       /*    File Name = les1102.sas   06/27/02   */
      
      data gakusei;
        infile 'all02.prn' firstobs=2;
        input sex $ height weight chest 
              jitaku $ kodukai carrier $ tsuuwa;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc npar1way data=gakusei wilcoxon;   : wilcoxon 検定
        class sex;                           : 分類したい特性変数の指定
        var height weight chest kodukai;     : 比較したい変量名
      run;                                   : 
      
    2. 出力結果 : les1102.lst
      
                                    SAS システム                             2
                                                   15:02 Monday, June 17, 2002
      
                         N P A R 1 W A Y  P R O C E D U R E
      
                  Wilcoxon Scores (Rank Sums) for Variable HEIGHT
                             Classified by Variable SEX
      
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           72    3141.5000       8424.0   475.103687    43.631944
         M          161   24119.5000      18837.0   475.103687   149.810559
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             3
                                                   15:02 Monday, June 17, 2002
      
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  3141.50   Z = -11.1176   Prob > |Z| = 0.0001
      
               T-Test Approx. Significance = 0.0001
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  123.62   DF =  1   Prob > CHISQ = 0.0001
      
                                    SAS システム                             4
                                                   15:02 Monday, June 17, 2002
      
                         N P A R 1 W A Y  P R O C E D U R E
      
                  Wilcoxon Scores (Rank Sums) for Variable WEIGHT
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           49    1536.5000    5169.5000   372.029119    31.357143
         M          161   20618.5000   16985.5000   372.029119   128.065217
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             5
                                                   15:02 Monday, June 17, 2002
      
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  1536.50   Z = -9.76402   Prob > |Z| = 0.0001
      
               T-Test Approx. Significance = 0.0001
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  95.362   DF =  1   Prob > CHISQ = 0.0001
      
                                    SAS システム                             6
                                                   15:02 Monday, June 17, 2002
      
                         N P A R 1 W A Y  P R O C E D U R E
      
                   Wilcoxon Scores (Rank Sums) for Variable CHEST
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           26        697.0       1066.0   98.3711595   26.8076923
         M           55       2624.0       2255.0   98.3711595   47.7090909
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             7
                                                   15:02 Monday, June 17, 2002
      
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  697.000   Z = -3.74602   Prob > |Z| = 0.0002
      
               T-Test Approx. Significance = 0.0003
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  14.071   DF =  1   Prob > CHISQ = 0.0002
      
                                    SAS システム                             8
                                                   15:02 Monday, June 17, 2002
      
                         N P A R 1 W A Y  P R O C E D U R E
      
                  Wilcoxon Scores (Rank Sums) for Variable KODUKAI
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           67       7671.0       7370.0   429.740361   114.492537
         M          152      16419.0      16720.0   429.740361   108.019737
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             9
                                                   15:02 Monday, June 17, 2002
      
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  7671.00   Z = 0.699259   Prob > |Z| = 0.4844
      
               T-Test Approx. Significance = 0.4851
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ = 0.49059   DF =  1   Prob > CHISQ = 0.4837
      
    3. 結果の見方 : Prob>|Z|
      • この手法では身長/体重/胸囲/小遣いの検定結果はパラメトリック手法と同じであった。

        • 身長(0.0%)や体重(0.0%)、胸囲(0.0%)は性別によって平均に差があると言える。
        • 小遣い(48.4%)は性別によって平均に差があるとは言えない。

  4. 対応のある 2群の検定
    1. プログラム : les1103.sas

       /* Lesson 11-3 */
       /*    File Name = les1103.sas   06/27/02   */
      
      data pair;                                     :
        input x y @@;                                : @@ は 1行に複数のデータがあることを示す 
        dif=x-y;                                     : 差(difference)を計算する
      cards;                                         : データをプログラム内に記述する
        3.51 3.39  3.07 3.39  3.29 3.20  3.03 3.11   : x1,y1,  x2,y2,  x3,y3,  x4,y4,
        3.38 3.17  3.30 3.09  3.15 3.17  3.25 3.09   : x5,y5,  x6,y6,  x7,y7,  x8,y8
      ;                                              :
                                                     :
      proc print data=pair;                          :
      run;                                           :
      proc univariate data=pair plot;                :
        var dif;                                     : 差について
      run;                                           :
      
    2. 出力結果 : les1103.lst
                                    SAS システム                             1
                                                   15:02 Monday, June 17, 2002
      
                            OBS      X       Y      DIF
      
                             1     3.51    3.39     0.12
                             2     3.07    3.39    -0.32
                             3     3.29    3.20     0.09
                             4     3.03    3.11    -0.08
                             5     3.38    3.17     0.21
                             6     3.30    3.09     0.21
                             7     3.15    3.17    -0.02
                             8     3.25    3.09     0.16
      
                                    SAS システム                             2
                                                   15:02 Monday, June 17, 2002
                                Univariate Procedure
      Variable=DIF
                                      Moments
      
                      N                 8  Sum Wgts          8
                      Mean        0.04625  Sum            0.37
                      Std Dev    0.180629  Variance   0.032627
                      Skewness   -1.31523  Kurtosis   1.511099
                      USS          0.2455  CSS        0.228388
                      CV         390.5489  Std Mean   0.063862
                      T:Mean=0   0.724218  Pr>|T|       0.4924
                      Num ^= 0          8  Num > 0           5
                      M(Sign)           1  Pr>=|M|      0.7266
                      Sgn Rank          7  Pr>=|S|      0.3594
      
                                    SAS システム                             3
                                                   15:02 Monday, June 17, 2002
                                Univariate Procedure
      Variable=DIF
                                  Quantiles(Def=5)
      
                       100% Max      0.21       99%      0.21
                        75% Q3      0.185       95%      0.21
                        50% Med     0.105       90%      0.21
                        25% Q1      -0.05       10%     -0.32
                         0% Min     -0.32        5%     -0.32
                                                 1%     -0.32
                       Range         0.53                    
                       Q3-Q1        0.235                    
                       Mode          0.21                    
      
                                    SAS システム                             4
                                                   15:02 Monday, June 17, 2002
                                Univariate Procedure
      Variable=DIF
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                          -0.32(       2)     0.09(       3)
                          -0.08(       4)     0.12(       1)
                          -0.02(       7)     0.16(       8)
                           0.09(       3)     0.21(       5)
                           0.12(       1)     0.21(       6)
      
                                    SAS システム                             5
                                                   15:02 Monday, June 17, 2002
                                Univariate Procedure
      Variable=DIF
                  Stem Leaf                     #             Boxplot
                     2 11                       2                |   
                     1 26                       2             +-----+
                     0 9                        1             |  +  |
                    -0 82                       2             +-----+
                    -1                                           |   
                    -2                                           |   
                    -3 2                        1                |   
                       ----+----+----+----+              
                   Multiply Stem.Leaf by 10**-1          
      
                                    SAS システム                             6
                                                   15:02 Monday, June 17, 2002
                                Univariate Procedure
      Variable=DIF
                                   Normal Probability Plot              
                0.25+                                  *++++*           
                    |                           *++*+++                 
                    |                       *++++                       
               -0.05+                *+++*++                            
                    |            +++++                                  
                    |      ++++++                                       
               -0.35+ +++++     *                                       
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方 :
      • T:Mean=0 : 平均=0 (帰無仮説)の検定のための t 統計量
      • Pr>=|T| : t 統計量の両側有意確率
        • t 統計量を適用する場合は、差の分布が正規分布に従っていることを仮定している
        • 差の分布が正規分布をしているかを確認するには : Normal Probability Plot
      • M(Sign) : 母集団の中央値がゼロであるという仮説を検定するための符合付き順位和検定統計量
      • Pr>=|M| : 母集団の中央値がゼロであるという仮説の下で、その符合統計量よりも大きい絶対値が得られる確率
      • Sgn Rank : 平均=0 (帰無仮説)の検定のための符合付き順位和検定統計量
      • Pr>=|S| : 符合付き順位和検定統計量のための近似的有意確率

      • この例では、ほぼ正規分布と言えそうだ。少数サンプルなので確度は低い。
      • どの統計指標を用いても、差がゼロであることが結構な確率で起りそう : 49.2%, 72.7%, 35.9%
        つまり、差があるとは言えない

  5. 変数変換 : 新しい変量の算出
    以下に示したような演算子や関数を使って、新しい変量を生成することができる。 利用可能なものの一部を掲載しておく。
    [例] 以下はあくまでも計算できることの例です。
    data gakusei;
      infile 'all02.prn' firstobs=2;
      input sex $ height weight chest 
            jitaku $ kodukai carrier $ tsuuwa;
    
    dekasa=height+weight+chest;                   : 変量間の加減乗除
    ch_2=chest**2;                                : 二乗
    ch_sr=sqrt(chest);                            : ルート
    taiseki=ch_2*height                           :
    

    [算術演算子]

    + : 足し算を算出します。
    - : 引き算を算出します。
    * : 掛け算を算出します。
    / : 割り算を算出します。
    ** : 巾乗を算出します。
    sqrt : 平方根(ルート)を算出します。

    [数値関数]

    arcos : 逆余弦(アークコサイン)を算出します。
    arsin : 逆正弦(アークサイン)を算出します。
    atan : 逆正接(アークタンジェント)を算出します。
    cos : 三角関数の余弦(コサイン)を求めます。
    cosh : 双曲線の余弦(コサイン)を求めます。
    sin : 正弦(サイン)を算出します。
    sinh : 双曲線正弦を算出します。
    tan : 正接(タンジェント)を算出します。
    tanh : 双曲線正接の値を算出します。

    ceil : 引数より大きいかまたは等しい整数のう最小の値を戻します。
    floor : 引数値より小さいかまたは等しい整数値のうち最大のものを戻します。
    fuzz : 引数と最も近い整数との差が10^-12以内のときに、その整数を戻します。
    int : 小数部を切り捨てて、整数値を戻します。
    round : 四捨五入します。
    tranc : 指定された長さに切り捨てた数値を戻します。

  6. 次回は、... :
    • 7月04日 14:45 :
      二変量の関係、単回帰分析、...
    • 7月18日、25日の対処
      • 学部によっては、両日とも試験期間に入っているらしい
      • 18日 : 相談会?
      • 25日 : 演習(自習)?


  7. 小言 : 電子メールについて
     受け手がそのメール(文章)を読んだだけですんなり理解できる文面にしてほしい。
[DIR]講義のホームページへ戻ります