平均値の比較の続き、二変量の関係

統計解析 02 クラス : 第10回 (06/24/04)

 今回は、単変量の集計としてよく利用される平均値の検定方法について説明する。 前回 、その論理展開のさわりを説明したが、仮定条件や判断基準等、 複雑に感じると思うので、混乱しないように理解してほしい。
 後半では、二変量の関係を取り扱う統計手法を紹介する。
  1. 平均値の比較 : 2つのグループの「平均値」に差があると言えるのか?、二群の比較

  2. 正規性の確認
     各分布を正規分布と見なして良いかは、 第6回 の第1節で説明した「proc univariate」の「Normal Probability Plot」で判断する。 「plot オプション」を忘れないように。
    1. プログラム : les0906.sas
    2. 出力結果 : les0906.lst
    3. 解釈
      • 基準線にどの程度乗っているかで判断する

      • 正規分布と言っても良さそう : 身長(男, 女)、体重(女)、胸囲(女)
      • 正規分布から若干離れてる : 体重(男)、胸囲(男)
      • 正規分布とは言えなさそう : 小遣い額(男, 女)

      • 比較する両群ともが正規分布の場合は、パラメトリック検定が使える。<=== 身長
      • 比較する両群の少なくとも片方が正規分布でない場合は、ノンパラメトリック検定を使う。<=== 体重、胸囲、小遣い額

  3. パラメトリック検定 : t 検定、Welch の検定
    1. プログラム : les1001.sas
       /* Lesson 10-1 */
       /*    File Name = les1001.sas   06/24/04   */
      
      data gakusei;
        infile 'all04a.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc ttest data=gakusei;               : t検定
        class sex;                           : 分類したい特性変数の指定
        var shintyou taijyuu kyoui kodukai;  : 比較したい変量名
      run;                                   : 
      
    2. 出力結果 : les1001.lst
                                    SAS システム                             2
                                                19:32 Wednesday, June 16, 2004
                                  TTEST PROCEDURE
      Variable: SHINTYOU                                             
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        94        159.18936170          5.45520306          0.56266123
      M       190        172.09000000          5.40135736          0.39185565
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -18.8147    183.8      0.0001
      Equal     -18.8782    282.0      0.0000
      
      For H0: Variances are equal, F' = 1.02   DF = (93,189)   Prob>F' = 0.8958
      
                                    SAS システム                             3
                                                19:32 Wednesday, June 16, 2004
                                  TTEST PROCEDURE
      Variable: TAIJYUU                                              
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        63         48.42857143          4.64450520          0.58515265
      M       190         62.13947368          7.72765047          0.56062269
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal   -16.9193    178.7      0.0001
      Equal     -13.2982    251.0      0.0000
      
      For H0: Variances are equal, F' = 2.77   DF = (189,62)   Prob>F' = 0.0000
      
                                    SAS システム                             4
                                                19:32 Wednesday, June 16, 2004
                                  TTEST PROCEDURE
      Variable: KYOUI                                                
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        32         82.93750000          4.35473417          0.76981552
      M        61         88.70491803          8.61460826          1.10298756
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal    -4.2878     90.9      0.0001
      Equal      -3.5503     91.0      0.0006
      
      For H0: Variances are equal, F' = 3.91   DF = (60,31)   Prob>F' = 0.0000
      
                                    SAS システム                             5
                                                19:32 Wednesday, June 16, 2004
                                  TTEST PROCEDURE
      Variable: KODUKAI                                              
      
      SEX       N                Mean             Std Dev           Std Error
      -----------------------------------------------------------------------
      F        89      50589.88764045      48581.26753872       5149.60405991
      M       181      49298.34254144      51281.56965350       3811.72905338
      
      Variances        T       DF    Prob>|T|
      ---------------------------------------
      Unequal     0.2016    183.9      0.8405
      Equal       0.1979    268.0      0.8433
      
      For H0: Variances are equal, F' = 1.11   DF = (180,88)   Prob>F' = 0.5740
      
    3. 結果の見方 : 二段階、このデータでは?
      • 等分散と言えるか? : Prob> F'
        • 身長(89.6%)と小遣い(57.4%)は等分散であると言える ===> t検定 : Equal の項
        • 体重(0.00%)と胸囲(0.00%)は等分散であると言えない ===> Welchの検定 : Unequal の項
      • 平均に差があると言えるか? : Prob>|T|
        • 身長(0.00%, Equal の項)や体重(0.01%, Unequal の項)、胸囲(0.01%, Unequal の項)は性別によって平均に差があると言える。
        • 小遣い(84.3%, Equal の項)は性別によって平均に差があるとは言えない。
        • ただし、体重、胸囲、小遣い額の分布のどちらか一方、または両方が 正規分布とは言えないので、身長以外の結論は信憑性に欠ける。 よって、体重、胸囲、小遣い額については次節で説明するノンパラメトリック検定の結果を待つ必要がある。

      • 検定基準
        • どれくらいの割合(確率)でその仮説が発生するか?
        • 確率が小さい ==> 稀なこと(普通ではない) ==> 有意(分散が等しいとは言えない、平均に差がある)
        • 5% 有意、1% 有意 : 今までの慣習から

    4. [演習1] 上記の結果を、自宅生/下宿生間の差として 検定した場合、身長、体重、胸囲、小遣い額に差があると言えるか 各自で結論づけてみよ

  4. ノンパラメトリック検定 : Wilcoxon 検定
    1. プログラム : les1002.sas

       /* Lesson 10-2 */
       /*    File Name = les1002.sas   06/24/04   */
      
      data gakusei;
        infile 'all04a.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc npar1way data=gakusei wilcoxon;   : wilcoxon 検定
        class sex;                           : 分類したい特性変数の指定
        var shintyou taijyuu kyoui kodukai;  : 比較したい変量名
      run;                                   : 
      
    2. 出力結果 : les1002.lst
                                    SAS システム                             2
                                                19:32 Wednesday, June 16, 2004
                         N P A R 1 W A Y  P R O C E D U R E
      
                 Wilcoxon Scores (Rank Sums) for Variable SHINTYOU
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           94       5223.0      13395.0   650.846383    55.563830
         M          190      35247.0      27075.0   650.846383   185.510526
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             3
                                                19:32 Wednesday, June 16, 2004
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  5223.00   Z = -12.5552   Prob > |Z| = 0.0001
      
               T-Test Approx. Significance = 0.0001
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  157.65   DF =  1   Prob > CHISQ = 0.0001
      
                                    SAS システム                             4
                                                19:32 Wednesday, June 16, 2004
                         N P A R 1 W A Y  P R O C E D U R E
      
                  Wilcoxon Scores (Rank Sums) for Variable TAIJYUU
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           63    2467.5000       8001.0   502.822144    39.166667
         M          190   29663.5000      24130.0   502.822144   156.123684
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             5
                                                19:32 Wednesday, June 16, 2004
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  2467.50   Z = -11.0039   Prob > |Z| = 0.0001
      
               T-Test Approx. Significance = 0.0001
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  121.11   DF =  1   Prob > CHISQ = 0.0001
      
                                    SAS システム                             6
                                                19:32 Wednesday, June 16, 2004
                         N P A R 1 W A Y  P R O C E D U R E
      
                   Wilcoxon Scores (Rank Sums) for Variable KYOUI
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           32        961.0       1504.0   123.138679   30.0312500
         M           61       3410.0       2867.0   123.138679   55.9016393
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             7
                                                19:32 Wednesday, June 16, 2004
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  961.000   Z = -4.40560   Prob > |Z| = 0.0001
      
               T-Test Approx. Significance = 0.0001
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  19.445   DF =  1   Prob > CHISQ = 0.0001
      
                                    SAS システム                             8
                                                19:32 Wednesday, June 16, 2004
                         N P A R 1 W A Y  P R O C E D U R E
      
                  Wilcoxon Scores (Rank Sums) for Variable KODUKAI
                             Classified by Variable SEX
      
                              Sum of     Expected      Std Dev         Mean
         SEX          N       Scores     Under H0     Under H0        Score
      
         F           89   12662.5000   12059.5000   600.013767   142.275281
         M          181   23922.5000   24525.5000   600.013767   132.168508
                         Average Scores Were Used for Ties
      
               Wilcoxon 2-Sample Test (Normal Approximation)
               (with Continuity Correction of .5)
      
                                    SAS システム                             9
                                                19:32 Wednesday, June 16, 2004
                         N P A R 1 W A Y  P R O C E D U R E
      
               S =  12662.5   Z =  1.00414   Prob > |Z| = 0.3153
      
               T-Test Approx. Significance = 0.3162
      
               Kruskal-Wallis Test (Chi-Square Approximation)
               CHISQ =  1.0100   DF =  1   Prob > CHISQ = 0.3149
      
    3. 結果の見方 : Prob>|Z|
      • この手法では身長/体重/胸囲/小遣いの検定結果はパラメトリック手法と同じであった。

      • 身長(0.01%)や体重(0.01%)、胸囲(0.01%)は性別によって平均に差があると言える。
      • 小遣い(31.5%)は性別によって平均に差があるとは言えない。

    4. [演習2] 上記の結果を、自宅生/下宿生間の差として 検定した場合、身長、体重、胸囲、小遣い額に差があると言えるか 各自で結論づけてみよ

  5. 対応のある 2群の検定
    1. プログラム : les1003.sas

       /* Lesson 10-3 */
       /*    File Name = les1003.sas   06/24/04   */
      
      data pair;                                     :
        input x y @@;                                : @@ は 1行に複数のデータがあることを示す 
        dif=x-y;                                     : 差(difference)を計算する
      cards;                                         : データをプログラム内に記述する
        3.51 3.39  3.07 3.39  3.29 3.20  3.03 3.11   : x1,y1,  x2,y2,  x3,y3,  x4,y4,
        3.38 3.17  3.30 3.09  3.15 3.17  3.25 3.09   : x5,y5,  x6,y6,  x7,y7,  x8,y8
      ;                                              :
                                                     :
      proc print data=pair;                          :
      run;                                           :
      proc univariate data=pair plot;                :
        var dif;                                     : 差について
      run;                                           :
      
    2. 出力結果 : les1003.lst
                                    SAS システム                             1
                                                19:31 Wednesday, June 16, 2004
      
                            OBS      X       Y      DIF
      
                             1     3.51    3.39     0.12
                             2     3.07    3.39    -0.32
                             3     3.29    3.20     0.09
                             4     3.03    3.11    -0.08
                             5     3.38    3.17     0.21
                             6     3.30    3.09     0.21
                             7     3.15    3.17    -0.02
                             8     3.25    3.09     0.16
      
                                    SAS システム                             2
                                                19:31 Wednesday, June 16, 2004
                                Univariate Procedure
      Variable=DIF
                                      Moments
      
                      N                 8  Sum Wgts          8
                      Mean        0.04625  Sum            0.37
                      Std Dev    0.180629  Variance   0.032627
                      Skewness   -1.31523  Kurtosis   1.511099
                      USS          0.2455  CSS        0.228388
                      CV         390.5489  Std Mean   0.063862
                      T:Mean=0   0.724218  Pr>|T|       0.4924
                      Num ^= 0          8  Num > 0           5
                      M(Sign)           1  Pr>=|M|      0.7266
                      Sgn Rank          7  Pr>=|S|      0.3594
      
                                    SAS システム                             5
                                                19:31 Wednesday, June 16, 2004
                                Univariate Procedure
      Variable=DIF
                  Stem Leaf                     #             Boxplot
                     2 11                       2                |   
                     1 26                       2             +-----+
                     0 9                        1             |  +  |
                    -0 82                       2             +-----+
                    -1                                           |   
                    -2                                           |   
                    -3 2                        1                |   
                       ----+----+----+----+              
                   Multiply Stem.Leaf by 10**-1          
      
                                    SAS システム                             6
                                                19:31 Wednesday, June 16, 2004
                                Univariate Procedure
      Variable=DIF
                                   Normal Probability Plot              
                0.25+                                  *++++*           
                    |                           *++*+++                 
                    |                       *++++                       
               -0.05+                *+++*++                            
                    |            +++++                                  
                    |      ++++++                                       
               -0.35+ +++++     *                                       
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 結果の見方 :
      • T:Mean=0 : 平均=0 (帰無仮説)の検定のための t 統計量
      • Pr>=|T| : t 統計量の両側有意確率
        • t 統計量を適用する場合は、差の分布が正規分布に従っていることを仮定している
        • 差の分布が正規分布をしているかを確認するには : Normal Probability Plot
      • M(Sign) : 母集団の中央値がゼロであるという仮説を検定するための符合付き順位和検定統計量
      • Pr>=|M| : 母集団の中央値がゼロであるという仮説の下で、その符合統計量よりも大きい絶対値が得られる確率
      • Sgn Rank : 平均=0 (帰無仮説)の検定のための符合付き順位和検定統計量
      • Pr>=|S| : 符合付き順位和検定統計量のための近似的有意確率

      • この例では、ほぼ正規分布と言えそうだ。少数サンプルなので確度は低い。
      • どの統計指標を用いても、差がゼロであることが結構な確率で起りそう : 49.2%, 72.7%, 35.9%
        つまり、差があるとは言えない。薬が効いているとは断定できない。

  6. 複数変量の関係
     これまでは主に単変量(一変量)を取り扱う統計手法を紹介してきた。 今後は、二変量以上、つまり、多変量解析の手法を紹介していく。 まずは二変量の関係を説明する方法について紹介する。

  7. 散布図と相関係数

    1. プログラム : les1004.sas

       /* Lesson 10-4 */
       /*    File Name = les1004.sas   06/24/04   */
      
      data gakusei;
        infile 'all04a.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      if sex^='M' & sex^='F' then delete;
      
      proc print data=gakusei(obs=10);
      run;
      proc plot data=gakusei;              : 散布図を描く
        plot shintyou*taijyuu;             : 散布図の変量を指定(縦軸、横軸の順)
        plot taijyuu*shintyou;             :
      run:                                 :
      proc corr data=gakusei;              : 相関係数(相関行列)を計算
      run:                                 :
      
    2. 出力結果 : les0901.lst
                                    SAS システム                             2
                                                   16:17 Friday, June 18, 2004
           プロット : SHINTYOU*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                    (NOTE: 40 オブザベーションが欠損値です.)
          SHINTYOU |
               200 +
                   |
                   |                               B       A
               180 +                       A ADCDDDBEA B B      A     A
                   |                    AAEDKHTMGGCEDCB BA
                   |                  AEAGIFEDBBBEAA  AA A     A
               160 +                ADCEBHDDAABB
                   |           A   EB DCDA A   A
                   |             A AAA
               140 +
                   ---+-----------+-----------+-----------+-----------+--
                     20          40          60          80          100
                                           TAIJYUU
      
                                    SAS システム                             3
                                                   16:17 Friday, June 18, 2004
           プロット : TAIJYUU*SHINTYOU.  凡例: A = 1 OBS, B = 2 OBS, ...
               (NOTE: 40 オブザベーションが欠損値です.)
          100 +                                               A
              |                                    A              A
      TAIJYUU |                               A   A     A A B A        A
              |                               A B CBDDC DCEAD CCF B  AA
              |                 A  AA   D B CABBF HBOHKBIFFDC BADBB A
           50 +            AAA  CABDA CCH F EBCGF DAAAB  BA
              |       A   B   C BA BA
              |
              |
              |
            0 +
              --+-----------+-----------+-----------+-----------+-----------+-
               140         150         160         170         180         190
                                          SHINTYOU
      
                                    SAS システム                             4
                                                   16:17 Friday, June 18, 2004
                                Correlation Analysis
            5 'VAR' Variables:  SHINTYOU TAIJYUU  KYOUI    KODUKAI  TSUUWA  
      
                                 Simple Statistics
       
        Variable         N      Mean   Std Dev       Sum   Minimum   Maximum
      
        SHINTYOU       284     167.8    8.1392   47660.9     145.0     186.0
        TAIJYUU        253   58.7253    9.2406   14857.5   35.0000     100.0
        KYOUI           93   86.7204    7.8979    8065.0   56.0000     112.0
        KODUKAI        270   49724.1   50320.7  13425500         0    300000
        TSUUWA          76    7279.6    5074.8    553248     200.0   30000.0
      
                                    SAS システム                             5
                                                   16:17 Friday, June 18, 2004
                                Correlation Analysis
      
           Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
           / Number of Observations  
      
                    SHINTYOU     TAIJYUU       KYOUI     KODUKAI      TSUUWA
      
        SHINTYOU     1.00000     0.70810     0.39574     0.04566     0.09515
                      0.0         0.0001      0.0001      0.4601      0.4168
                         284         253          93         264          75
      
        TAIJYUU      0.70810     1.00000     0.67545    -0.00639     0.03815
                      0.0001      0.0         0.0001      0.9222      0.7592
                         253         253          93         236          67
      
        KYOUI        0.39574     0.67545     1.00000    -0.08997     0.14602
                      0.0001      0.0001      0.0         0.4017      0.5760
                          93          93          93          89          17
      
        KODUKAI      0.04566    -0.00639    -0.08997     1.00000     0.07144
                      0.4601      0.9222      0.4017      0.0         0.5481
                         264         236          89         270          73
      
        TSUUWA       0.09515     0.03815     0.14602     0.07144     1.00000
                      0.4168      0.7592      0.5760      0.5481      0.0   
                          75          67          17          73          76
      
    3. 結果の見方
      • 縦軸と横軸の該当部分が交差したところにマークを付置
      • データが1つなら「Aマーク」、2つなら「Bマーク」、...
      • データ全体がどこに分布しているかが判る
      • 縦軸と横軸を交換するだけで印象が異なる
      • 各変量の平均値との比較
      • 外れ値(Outlier)を見つける <===> 異常値

      • サンプルサイズ、平均、標準偏差、最大値、最小値 <=== proc means だけでなく proc corr でも得られる。
      • 相関係数(R) / 仮説「相関係数(R)=0」の起る確率 / サンプルサイズ
      • -1 ≦ 相関係数(R)≦ 1
      • R=0 : 無相関。R>0 : 正の相関、右肩上がり。R<0 : 負の相関、右肩下がり。
      • 相関係数(R)が 0 かの検定 : 値が小さいと有意(相関係数が 0 とは言えない、何らかの関係があると言える)
        この例 : 身長と体重、身長と胸囲、体重と胸囲の間には有意な関係があると言える(5%, 1%)。

      [注意] 相関行列は細切れに表示されるので、 不要部分を削除することによって整形しレポート等に使うこと。

  8. [次週予告] 単回帰分析 : 予測等に使う、連続変量の関係

  9. 次回は、... : 07月01日 14:45

  10. [おまけ] 単変量、二変量を視覚的に捉えると? by Mathematica
    1. 1 dim. Normal Distribution [式(a)] 1次元正規分布 N(0,1)
    2. 2 dim. Normal Distribution [式(b)] 2次元正規分布 N({0,0},{1,1}, ρ=0.0)
    3. 2 dim. Normal Distribution [式(c)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)
    4. 2 dim. Normal Distribution [式(d)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、y=1 で切り出し
    5. 2 dim. Normal Distribution [式(e)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、x+y=2 で切り出し
[DIR]講義のホームページへ戻ります