先週の続きと、グループ分け

統計解析 06 クラス : 第06回 (11/11/04)

 今回はまず 前回 の部分を説明した後、グループ分けについて説明する。 データの特性を考慮して、グループ毎の集計を行なうと、 今までは判らなかったデータの特徴を把握することができる。

  1. グループ分け : 調査対象の性質・特性によって分類

    1. プログラム : Lesson 6-1 : les0601.sas
       /* Lesson 6-01 */
       /*    File Name = les0601.sas   11/11/04   */
      
      data gakusei;
        infile 'all04b.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=5);
      run;
      proc means data=gakusei;
      run;
      proc univariate data=gakusei plot;
        var shintyou taijyuu kyoui kodukai;
      run;
      proc chart data=gakusei;                           : ヒストグラム
        hbar shintyou taijyuu kyoui kodukai;             : 指定した変量について計算
      run;                                               :
                                                         :
      proc sort data=gakusei;                            : 並べ替え(ソート)
        by sex;                                          : 性別ごとに
      run;                                               :
                                                         :
      proc means data=gakusei;                           : 平均の計算
        by sex;                                          : 性別ごとに
      run;                                               :
      proc univariate data=gakusei plot;                 : 基礎統計量の計算
        var shintyou taijyuu kyoui kodukai;              : 指定した変量について計算
        by sex;                                          : 性別ごとに
      run;                                               :
      proc chart data=gakusei;                           : ヒストグラム
        hbar shintyou taijyuu kyoui kodukai;             : 指定した変量について計算
        by sex;                                          : 性別ごとに
      run;                                               :
      proc chart data=gakusei;                           : ヒストグラム
        hbar shintyou taijyuu kyoui kodukai/group=sex;   : 性別ごとに併置して
      run;                                               :
      

    2. 出力結果 : les0601.lst :
      • 性別で身長や体重等の平均に違いがあることを確認せよ。
      • 各々の分布の特徴と違いを把握せよ。
      • 平均値だけでなく、最頻値、中央値が分布のどこに位置するかを調べよ。
      • ヒストグラムだけでなく、箱髭図や樹葉図からでも分布特性が把握できるようにせよ。
                                    SAS システム                             2
                                               17:55 Tuesday, November 9, 2004
      
       Variable    N          Mean       Std Dev       Minimum       Maximum
       ---------------------------------------------------------------------
       SHINTYOU  303   167.7584158     8.2069217   145.0000000   186.0000000
       TAIJYUU   272    58.7084559     9.4277698    35.0000000   100.0000000
       KYOUI     102    86.5196078     7.6827316    56.0000000   112.0000000
       KODUKAI   292      49279.11      49464.64             0     300000.00
       TSUUWA     95       7281.56       4734.60   200.0000000      30000.00
       ---------------------------------------------------------------------
      
                                    SAS システム                             3
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
      Variable=SHINTYOU
                                      Moments
      
                      N               303  Sum Wgts        303
                      Mean       167.7584  Sum         50830.8
                      Std Dev    8.206922  Variance   67.35356
                      Skewness   -0.35873  Kurtosis   -0.40208
                      USS         8547635  CSS        20340.78
                      CV         4.892107  Std Mean   0.471475
                      T:Mean=0   355.8159  Pr>|T|       0.0001
                      Num ^= 0        303  Num > 0         303
                      M(Sign)       151.5  Pr>=|M|      0.0001
                      Sgn Rank      23028  Pr>=|S|      0.0001
      
                                    SAS システム                             4
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
      Variable=SHINTYOU
                                  Quantiles(Def=5)
      
                       100% Max       186       99%       183
                        75% Q3      173.8       95%       180
                        50% Med       169       90%       178
                        25% Q1        162       10%       156
                         0% Min       145        5%       153
                                                 1%       148
                       Range           41                    
                       Q3-Q1         11.8                    
                       Mode           170                    
      
                                    SAS システム                             7
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
      Variable=SHINTYOU
                             Histogram                      #          Boxplot
        187.5+*                                             2             |   
             .*********                                    18             |   
             .***********************                      45             |   
             .*****************************************    81          +-----+
        167.5+******************************               59          *--+--*
             .************************                     48          +-----+
             .***************                              29             |   
             .********                                     15             |   
        147.5+***                                           6             |   
              ----+----+----+----+----+----+----+----+-              
              * may represent up to 2 counts                         
      
                                    SAS システム                             8
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
      Variable=SHINTYOU
                                   Normal Probability Plot              
               187.5+                                               +++*
                    |                                        ******+*** 
                    |                                 ********          
                    |                         *********                 
               167.5+                    ******++                       
                    |               ******+                             
                    |          ******                                   
                    |    +******                                        
               147.5+**+**                                              
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            21
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
      Variable=KODUKAI
                                      Moments
      
                      N               292  Sum Wgts        292
                      Mean       49279.11  Sum        14389500
                      Std Dev    49464.64  Variance   2.4468E9
                      Skewness   1.705219  Kurtosis   4.109965
                      USS        1.421E12  CSS         7.12E11
                      CV         100.3765  Std Mean   2894.699
                      T:Mean=0   17.02391  Pr>|T|       0.0001
                      Num ^= 0        242  Num > 0         242
                      M(Sign)         121  Pr>=|M|      0.0001
                      Sgn Rank    14701.5  Pr>=|S|      0.0001
      
                                    SAS システム                            22
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
      Variable=KODUKAI
                                  Quantiles(Def=5)
      
                       100% Max    300000       99%    200000
                        75% Q3      70000       95%    150000
                        50% Med     30000       90%    120000
                        25% Q1      20000       10%         0
                         0% Min         0        5%         0
                                                 1%         0
                       Range       300000                    
                       Q3-Q1        50000                    
                       Mode             0                    
      
                                    SAS システム                            25
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
      Variable=KODUKAI
                              Histogram                        #       Boxplot
       325000+*                                                2          *   
             .                                                                
             .*                                                2          0   
       175000+*****                                           18          0   
             .********                                        32          |   
             .****************                                64       +-----+
        25000+********************************************   174       *--+--*
              ----+----+----+----+----+----+----+----+----              
              * may represent up to 4 counts                            
      
                                    SAS システム                            26
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
      Variable=KODUKAI
                                   Normal Probability Plot              
              325000+                                                  *
                    |                                                   
                    |                                               * * 
              175000+                                       ********++++
                    |                                  ******++++++     
                    |                          +********+               
               25000+** *************************                       
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            31
                                               17:55 Tuesday, November 9, 2004
           KODUKAI                                 Cum.              Cum.
           Midpoint                          Freq  Freq  Percent  Percent
                     |
                 0   |*************            67    67    22.95    22.95
             30000   |*********************   104   171    35.62    58.56
             60000   |***********              54   225    18.49    77.05
             90000   |*******                  33   258    11.30    88.36
            120000   |**                       12   270     4.11    92.47
            150000   |***                      16   286     5.48    97.95
            180000   |                          2   288     0.68    98.63
            210000   |                          2   290     0.68    99.32
            240000   |                          0   290     0.00    99.32
            270000   |                          0   290     0.00    99.32
            300000   |                          2   292     0.68   100.00
                     |
                     ----+---+---+---+---+-
                         20  40  60  80 100
      
                                    SAS システム                            33
                                               17:55 Tuesday, November 9, 2004
      --------------------------------- SEX=F --------------------------------
      
       Variable    N          Mean       Std Dev       Minimum       Maximum
       ---------------------------------------------------------------------
       SHINTYOU  101   159.0267327     5.4951231   145.0000000   171.0000000
       TAIJYUU    70    48.5314286     4.8016767    35.0000000    59.0000000
       KYOUI      38    83.1842105     4.0527286    70.0000000    90.0000000
       KODUKAI    98      49209.18      46883.49             0     300000.00
       TSUUWA     44       6993.18       4654.30   200.0000000      25000.00
       ---------------------------------------------------------------------
      
                                    SAS システム                            34
                                               17:55 Tuesday, November 9, 2004
      --------------------------------- SEX=M --------------------------------
      
       Variable    N          Mean       Std Dev       Minimum       Maximum
       ---------------------------------------------------------------------
       SHINTYOU  201   172.1447761     5.3634583   156.0000000   186.0000000
       TAIJYUU   201    62.2462687     7.9777628    46.0000000   100.0000000
       KYOUI      64    88.5000000     8.6189161    56.0000000   112.0000000
       KODUKAI   192      49187.50      50935.09             0     300000.00
       TSUUWA     50       7480.96       4871.02   500.0000000      30000.00
       ---------------------------------------------------------------------
      
                                    SAS システム                            53
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                      Moments
      
                      N               101  Sum Wgts        101
                      Mean       159.0267  Sum         16061.7
                      Std Dev    5.495123  Variance   30.19638
                      Skewness    -0.2286  Kurtosis   -0.36121
                      USS         2557259  CSS        3019.638
                      CV         3.455471  Std Mean   0.546785
                      T:Mean=0   290.8395  Pr>|T|       0.0001
                      Num ^= 0        101  Num > 0         101
                      M(Sign)        50.5  Pr>=|M|      0.0001
                      Sgn Rank     2575.5  Pr>=|S|      0.0001
      
                                    SAS システム                            55
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                  Quantiles(Def=5)
      
                       100% Max       171       99%       170
                        75% Q3        163       95%       167
                        50% Med       160       90%       166
                        25% Q1        156       10%       152
                         0% Min       145        5%       149
                                                 1%     146.7
                       Range           26                    
                       Q3-Q1            7                    
                       Mode           156                    
      
                                    SAS システム                            58
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
          Stem Leaf                                    #             Boxplot
            17 001                                     3                |   
            16 555566666667777                        15                |   
            16 00000000000000111222222222333344444    35             +-----+
            15 555666666666666777788889999            27             +--+--+
            15 012222333333444                        15                |   
            14 578899                                  6                0   
               ----+----+----+----+----+----+----+              
           Multiply Stem.Leaf by 10**+1                         
      
                                    SAS システム                            59
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                   Normal Probability Plot              
               172.5+                                             +*+++*
                    |                                  *******+*+*      
                    |                         **********+               
                    |                 *********+                        
                    |         +********                                 
               147.5+*+++*+*+**                                         
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            81
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                      Moments
      
                      N               201  Sum Wgts        201
                      Mean       172.1448  Sum         34601.1
                      Std Dev    5.363458  Variance   28.76669
                      Skewness   -0.06893  Kurtosis   0.036975
                      USS         5962152  CSS        5753.337
                      CV         3.115667  Std Mean   0.378309
                      T:Mean=0   455.0373  Pr>|T|       0.0001
                      Num ^= 0        201  Num > 0         201
                      M(Sign)       100.5  Pr>=|M|      0.0001
                      Sgn Rank    10150.5  Pr>=|S|      0.0001
      
                                    SAS システム                            83
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                  Quantiles(Def=5)
      
                       100% Max       186       99%       184
                        75% Q3        175       95%     180.5
                        50% Med       172       90%     179.9
                        25% Q1      168.6       10%       166
                         0% Min       156        5%       163
                                                 1%       160
                       Range           30                    
                       Q3-Q1          6.4                    
                       Mode           170                    
      
                                    SAS システム                            86
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                            Histogram                      #           Boxplot
        187.5+*                                            2              0   
             .*********                                   18              |   
             .***********************                     45           +-----+
        172.5+****************************************    79           *--+--*
             .*********************                       42           +-----+
             .*******                                     14              |   
        157.5+*                                            1              0   
              ----+----+----+----+----+----+----+----+              
              * may represent up to 2 counts                        
      
                                    SAS システム                            87
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                   Normal Probability Plot              
               187.5+                                                 **
                    |                                      ******+***+  
                    |                              *********+           
               172.5+                   ************                    
                    |           *********++                             
                    | * ********+                                       
               157.5+*++                                                
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                           109
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
                                  Schematic Plots
      Variable=SHINTYOU
      
                  200 +                                        
                      |                                        
                      |                                    0   
                  180 +                                    |   
                      |                        |        *--+--*
                      |         *--+--*        |        +-----+
                  160 +                     *--+--*        |   
                      |                     +-----+        0   
                      |                        0               
                  140 +                                        
                       ------------+-----------+-----------+-----------
                  SEX                             F           M
      
                                    SAS システム                           110
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
                                  Schematic Plots
      Variable=TAIJYUU
      
                      |                                        
                  100 +                                    *   
                      |                                    0   
                      |         *--+--*        |        *--+--*
                   50 +                     *--+--*     +-----+
                      |                        0               
                      |                                        
                    0 +                                        
                       ------------+-----------+-----------+-----------
                  SEX                             F           M
      
                                    SAS システム                           112
                                               17:55 Tuesday, November 9, 2004
                                Univariate Procedure
                                  Schematic Plots
      Variable=KODUKAI
      
               300000 +                        *           *   
                      |                                        
                      |                                        
               200000 +                        *           0   
                      |                        0           |   
                      |                        0           |   
               100000 +         +-----+        |           |   
                      |         *--+--*     +-----+     +-----+
                      |         +-----+     *--+--*     *--+--*
                    0 +                        |        +-----+
                       ------------+-----------+-----------+-----------
                  SEX                             F           M
      
                                    SAS システム                           116
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=F ---------------------------------
      SHINTYOU                                         Cum.              Cum.
      Midpoint                                   Freq  Freq  Percent  Percent
                 |
           146   |**                                2     2     1.98     1.98
           150   |*******                           7     9     6.93     8.91
           154   |***************                  15    24    14.85    23.76
           158   |*************************        25    49    24.75    48.51
           162   |*****************************    29    78    28.71    77.23
           166   |********************             20    98    19.80    97.03
           170   |***                               3   101     2.97   100.00
                 |
                 -----+----+----+----+----+----
                      5    10   15   20   25
                            Frequency
      
                                    SAS システム                           120
                                               17:55 Tuesday, November 9, 2004
      -------------------------------- SEX=M ---------------------------------
       SHINTYOU                                       Cum.              Cum.
       Midpoint                                 Freq  Freq  Percent  Percent
                  |
            156   |*                               1     1     0.50     0.50
            159   |***                             5     6     2.49     2.99
            162   |****                            7    13     3.48     6.47
            165   |*****                          10    23     4.98    11.44
            168   |*****************              34    57    16.92    28.36
            171   |***************************    53   110    26.37    54.73
            174   |*********************          42   152    20.90    75.62
            177   |***********                    22   174    10.95    86.57
            180   |*********                      18   192     8.96    95.52
            183   |****                            7   199     3.48    99.00
            186   |*                               2   201     1.00   100.00
                  |
                  -----+----+----+----+----+--
                       10   20   30   40   50
                            Frequency
      
                                    SAS システム                           127
                                               17:55 Tuesday, November 9, 2004
      SEX   SHINTYOU                                    Cum.              Cum.
            Midpoint                              Freq  Freq  Percent  Percent
                       |
      F          146   |*                            2     3     0.66     0.99
                 150   |***                          7    10     2.31     3.30
                 154   |******                      15    25     4.95     8.25
                 158   |**********                  25    50     8.25    16.50
                 162   |************                29    79     9.57    26.07
                 166   |********                    20    99     6.60    32.67
                 170   |*                            3   102     0.99    33.66
                 174   |                             0   102     0.00    33.66
                 178   |                             0   102     0.00    33.66
                 182   |                             0   102     0.00    33.66
                 186   |                             0   102     0.00    33.66
                       |
      M          146   |                             0   102     0.00    33.66
                 150   |                             0   102     0.00    33.66
                 154   |                             0   102     0.00    33.66
                 158   |                             1   103     0.33    33.99
                 162   |*****                       12   115     3.96    37.95
                 166   |*********                   22   137     7.26    45.21
                 170   |************************    59   196    19.47    64.69
                 174   |***********************     58   254    19.14    83.83
                 178   |************                29   283     9.57    93.40
                 182   |*******                     17   300     5.61    99.01
                 186   |*                            3   303     0.99   100.00
                       |
                       ----+---+---+---+---+---+
                           10  20  30  40  50  60
                               Frequency
      
                                    SAS システム                           135
                                               17:55 Tuesday, November 9, 2004
            SEX   KODUKAI                         Cum.              Cum.
                  Midpoint                  Freq  Freq  Percent  Percent
                            |
            F           0   |***              16    18     5.48     6.16
                    30000   |********         38    56    13.01    19.18
                    60000   |******           28    84     9.59    28.77
                    90000   |*                 7    91     2.40    31.16
                   120000   |*                 4    95     1.37    32.53
                   150000   |                  2    97     0.68    33.22
                   180000   |                  1    98     0.34    33.56
                   210000   |                  1    99     0.34    33.90
                   240000   |                  0    99     0.00    33.90
                   270000   |                  0    99     0.00    33.90
                   300000   |                  1   100     0.34    34.25
                            |
            M           0   |**********       51   151    17.47    51.71
                    30000   |*************    65   216    22.26    73.97
                    60000   |*****            26   242     8.90    82.88
                    90000   |*****            25   267     8.56    91.44
                   120000   |**                8   275     2.74    94.18
                   150000   |***              14   289     4.79    98.97
                   180000   |                  1   290     0.34    99.32
                   210000   |                  1   291     0.34    99.66
                   240000   |                  0   291     0.00    99.66
                   270000   |                  0   291     0.00    99.66
                   300000   |                  1   292     0.34   100.00
                            |
                            ----+---+---+-
                                20  40  60
                               Frequency
      

    3. [テクニック] グループを分けて分析する場合は、事前に並べ替えが必要
    4. [演習1] 垂直棒グラフで比較してみよ。他の変数も調べてみよ。
    5. [演習2] 自宅生/下宿生別に集計して両者の違いを明らかにせよ。

  2. 分布の把握について : 気をつける点

  3. レポート提出 : これまでの講義で紹介した SAS の手法(プロシジャー)を利用して、 統計解析を行ってみよ。解析結果だけでなく、データ自身の説明や、 どういうところに興味を持って対象に選んだかの理由等も報告する事。考察も大事。
    1. 対象データ : 以下の 1〜3 の中から 最低、1つ。
      1. 皆さんから収集したアンケートデータ(all04b.prn)
      2. 各自で収集した興味あるデータ(個人ごとに異なる) : 複数あるかも
      3. その他

    2. 提出期限 : 11月24日(水) 16:00 まで : 電子メールかワープロ(or エディタ)で。手書きは不可。

        追記[11/19/04] 締め切り時刻を21:00に変更します。また、特別措置を行ないます。詳しくは 連絡ページ を参照してください。

      注意1: 電子メールでの場合は、添付ファイルは使わないこと。 提出用メールアドレスは「hayashi@peter.rd.dnc.ac.jp」である。 また、提出日時はメールヘッダーから判断する。私からは受領確認メールを出すので、それを受け取った段階で提出作業完了とする。
      注意2: 紙で提出する場合は、事務所の受付終了時刻に注意すること。提出日は事務室の受領印で判断する。
      注意3: 連絡ページ に受領した者の学籍番号を掲載するので、確認に使ってほしい。

    3. 作業内容 : 以下の点に注意しながらレポートを作成しよう。
      1. 解析対象とするデータの数は、最低 1つであるが上限は設けない。
      2. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 解析対象に選んだかの理由等も報告する事。 加えて、特に得られた知見からの考察は大事。
      3. レポートは他人への、もの事の説明のための文書である!!
      4. 手入力を少なくして SAS の出力を最大限有効利用せよ。 しかし、不要な部分はカットせよ。だらだらと引用しないこと。
      5. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    4. 必要事項 : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • 使ったデータ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

      • 講義の進め方や内容等について、感想や意見も。

  4. 次回は、... : 11月18日 14:45

  5. 次々回は、... : 11月25日 14:45

  6. [おまけ] いくつかのファイル形式 : デリミタの指定
    Excel 等で入力したデータを SAS に読み込ませる場合、 講義の中では「スペース区切り」を紹介した。 これ以外の形式のファイルも読み込めるものがあり、 その場合には以下のような SAS のプログラムを用いる。

    1. カンマ区切り(csv 形式)のファイルを読む場合 : *.csv
      [コメント] 以下の指定を行っても「,,」と言うように コンマが続いている(欠損値) csv 形式のファイルはうまく読めないようである。 エディタ等で事前に「, ,」や「,0,」と置換しておく必要がある。
      data mon2004;
        infile 'd:\home\mon_all8d.csv' dlm=',' 
               firstobs=2
               truncover; 
      

    2. タブ区切りのファイルを読む場合 : *.txt
      data mon2004;
        infile 'd:\home\mon_all8d.txt' dlm='09'x 
               firstobs=2
               truncover; 
      
[DIR]講義のホームページへ戻ります