基礎統計量とグループ分け

統計処理 01 クラス : 第7回(05/30/02)

前回は一番基本的な集計方法を説明し、これらを得るためのコマンドを提示した。 今回は、分布形状を把握する上で有用でよく利用される基礎統計量について紹介し、 併せて、グループ毎の集計方法についても説明する。
  1. 「平均」とは? : 中間? 真ん中? 代表値? 大体の目安? ...

    貯蓄現在高回級別世帯分布(勤労者世帯) グラフ 貯蓄現在高回級別世帯分布(勤労者世帯)

    分布形状と統計量

  2. 基礎統計量 : 分布特性の把握に役立つ統計量
    前項の指標を皆さんのデータで算出してみよう。
    1. プログラム : les0701.sas
       /* Lesson 7-1 */
       /*    File Name = les0701.sas   05/30/02   */
      
      data gakusei;
        infile 'waseda02.prn';
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=5);
      run;
      proc means data=gakusei;
      run;
      proc univariate data=gakusei plot;    : 基礎統計量の算出、plot オプション
        var shintyou taijyuu kodukai;       : 指定した変量について計算
      run;                                  :
      
    2. 出力結果 : les0701.lst
      
                                    SAS システム                             3
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=SHINTYOU
                                      Moments
      
                      N                38  Sum Wgts         38
                      Mean       165.8921  Sum          6303.9
                      Std Dev    8.698039  Variance   75.65588
                      Skewness   -0.18598  Kurtosis   -0.79905
                      USS         1048567  CSS        2799.268
                      CV          5.24319  Std Mean   1.411008
                      T:Mean=0   117.5699  Pr>|T|       0.0001
                      Num ^= 0         38  Num > 0          38
                      M(Sign)          19  Pr>=|M|      0.0001
                      Sgn Rank      370.5  Pr>=|S|      0.0001
      
                                    SAS システム                             4
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=SHINTYOU
                                  Quantiles(Def=5)
      
                       100% Max     181.5       99%     181.5
                        75% Q3        172       95%       180
                        50% Med       167       90%       177
                        25% Q1        160       10%       153
                         0% Min       148        5%       152
                                                 1%       148
                       Range         33.5                    
                       Q3-Q1           12                    
                       Mode           160                    
      
                                    SAS システム                             5
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=SHINTYOU
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                            148(      12)    176.6(      24)
                            152(      25)      177(      38)
                            153(      29)      179(      17)
                            153(      14)      180(       1)
                          153.5(      21)    181.5(      34)
      
                                    SAS システム                             6
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=SHINTYOU
                  Stem Leaf                     #             Boxplot
                    18 02                       2                |   
                    17 6779                     4                |   
                    17 000122244                9             +-----+
                    16 556677788                9             *--+--*
                    16 00023                    5             +-----+
                    15 5668                     4                |   
                    15 2334                     4                |   
                    14 8                        1                |   
                       ----+----+----+----+              
                   Multiply Stem.Leaf by 10**+1          
      
                                    SAS システム                             7
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=SHINTYOU
                                   Normal Probability Plot              
               182.5+                                          *+++*    
                    |                                   *+**+*+         
                    |                            *******+               
                    |                      **+*+*++                     
                    |                  ****++                           
                    |             ++***+                                
                    |       +*+*++*                                     
               147.5+ +++*++                                            
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            14
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=KODUKAI
                                      Moments
      
                      N                36  Sum Wgts         36
                      Mean       44888.89  Sum         1616000
                      Std Dev    57705.05  Variance   3.3299E9
                      Skewness    2.72329  Kurtosis   10.19551
                      USS        1.891E11  CSS        1.165E11
                      CV         128.5509  Std Mean   9617.509
                      T:Mean=0   4.667413  Pr>|T|       0.0001
                      Num ^= 0         28  Num > 0          28
                      M(Sign)          14  Pr>=|M|      0.0001
                      Sgn Rank        203  Pr>=|S|      0.0001
      
                                    SAS システム                            15
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=KODUKAI
                                  Quantiles(Def=5)
      
                       100% Max    300000       99%    300000
                        75% Q3      60000       95%    125000
                        50% Med     30000       90%    120000
                        25% Q1       4000       10%         0
                         0% Min         0        5%         0
                                                 1%         0
                       Range       300000                    
                       Q3-Q1        56000                    
                       Mode             0                    
      
                                    SAS システム                            16
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=KODUKAI
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      37)   100000(      32)
                              0(      36)   120000(       7)
                              0(      31)   120000(      34)
                              0(      18)   125000(      29)
                              0(       9)   300000(      17)
      
                              Missing Value         .
                              Count                 2
                              % Count/Nobs       5.26
      
                                    SAS システム                            18
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=KODUKAI
                Stem Leaf                        #             Boxplot
                   3 0                           1                *   
                   2                                                  
                   2                                                  
                   1                                                  
                   1 00222                       5                |   
                   0 5566677                     7             +-----+
                   0 00000000000122222333444    23             *--+--*
                     ----+----+----+----+---              
                 Multiply Stem.Leaf by 10**+5             
      
                                    SAS システム                            19
                                                  09:08 Thursday, May 23, 2002
                                Univariate Procedure
      Variable=KODUKAI
                                   Normal Probability Plot              
              325000+                                              *    
                    |                                                   
                    |                                                   
              175000+                                            +++++++
                    |                                   **+*+++*+       
                    |                          +++***+*+                
               25000+    *   * * * *****+**+*** *                       
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    3. 算出統計量の説明 : 分布形状を把握するのに利用
      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる
      • Minimum & Maximum : 最小値と最大値
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Quantiles : 四分位数
        下位から、0%点(Q0、最小値)、25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)、100%点(Q4 最大値)
      • 範囲(Range) : 最大値(Max)-最小値(Min)
      • 四分偏差 : Q3-Q1
      • Mode : 最頻値(SAS では、複数のモードがある場合は最小値が表示される)
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        時刻表にも似ている

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端、中央線、上端は、それぞれ 25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)。
        プラス(+) は平均値。* は最頻値。
        髭 : 箱からの距離が、
        1.5x[四分偏差] の範囲内にあるサンプルまで伸ばされる。
        髭の外側にサンプルがある場合、
        0(3.0x[四分偏差] の範囲内) や
        *(それより外側) で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        分布が正規分布かどうかを確かめる
        + が基準線、* が対象データ。ずれていると正規性が疑われる。

    4. 知見 : 解析によって判ったこと & 解ったこと
      • 平均値の意味するところ : 対称分布の時だけイメージが一致する
      • 分布の偏り : 常にあると思ってよい : 最頻値や中央値が有効
      • Mode の表示は少し注意が必要(SAS の場合)
      • 少数例

    5. [演習] 棒グラフ上での各統計量の位置を確認せよ。

  3. グループ分け : 調査対象の性質・特性によって分類

    1. プログラム : Lesson 7-2 : les0702.sas : les0701.sas を活用する
       /* Lesson 7-2 */
       /*    File Name = les0702.sas   05/30/02   */
      
      data gakusei;
        infile 'waseda02.prn';
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=5);
      run;
      proc means data=gakusei;
      run;
      proc chart data=gakusei;
        hbar shintyou taijyuu kodukai;
      run;
      proc univariate data=gakusei plot;
        var shintyou taijyuu kodukai;
      run;
                                                  :
      proc sort data=gakusei;                     : 並べ替え(ソート)
        by sex;                                   : 性別ごとに
      run;                                        :
                                                  :
      proc means data=gakusei;                    : 平均の計算
        var shintyou taijyuu kodukai;             : 指定した変量について計算
        by sex;                                   : 性別ごとに
      run;                                        :
      proc chart data=gakusei;                    : ヒストグラム
        hbar shintyou taijyuu kodukai;            : 指定した変量について計算
        by sex;                                   : 性別ごとに
      run;                                        :
      proc chart data=gakusei;                    : ヒストグラム
        hbar shintyou taijyuu kodukai/group=sex;  : 性別ごとに併置して
      run;                                        :
      proc univariate data=gakusei plot;          : 基礎統計量の計算
        var shintyou taijyuu kodukai;             : 指定した変量について計算
        by sex;                                   : 性別ごとに
      run;                                        :
      

    2. 出力結果 : les0702.lst :
      • 性別で合計額(total)の平均に違いがあることを確認せよ。
      • 各々の分布の特徴と違いを把握せよ。
      
                                    SAS システム                             2
                                                   22:42 Tuesday, May 28, 2002
      
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        SHINTYOU  38   165.8921053     8.6980390   148.0000000   181.5000000
        TAIJYUU   36    54.0138889     9.5815046    35.0000000    74.5000000
        KYOUI      9    82.0000000     5.1720402    75.0000000    90.0000000
        KODUKAI   36      44888.89      57705.05             0     300000.00
        TSUUWA    31       8120.97       5186.07       2000.00      30000.00
        --------------------------------------------------------------------
      
                                    SAS システム                             3
                                                   22:42 Tuesday, May 28, 2002
      
         SHINTYOU                                    Cum.              Cum.
         Midpoint                              Freq  Freq  Percent  Percent
                    |
              150   |****                         2     2     5.26     5.26
              156   |**************               7     9    18.42    23.68
              162   |**********                   5    14    13.16    36.84
              168   |************************    12    26    31.58    68.42
              174   |****************             8    34    21.05    89.47
              180   |********                     4    38    10.53   100.00
                    |
                    ----+---+---+---+---+---+
                        2   4   6   8   10  12
                            Frequency
      
                                    SAS システム                            23
                                                   22:42 Tuesday, May 28, 2002
      -------------------------------- SEX=' ' -------------------------------
      
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        SHINTYOU   1   168.0000000             .   168.0000000   168.0000000
        TAIJYUU    1    60.0000000             .    60.0000000    60.0000000
        KODUKAI    1      23000.00             .      23000.00      23000.00
        --------------------------------------------------------------------
      
                                    SAS システム                            24
                                                   22:42 Tuesday, May 28, 2002
      --------------------------------- SEX=F --------------------------------
      
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        SHINTYOU  17   158.7941176     6.3222297   148.0000000   171.0000000
        TAIJYUU   15    45.7333333     5.0739766    35.0000000    55.0000000
        KODUKAI   16      52187.50      36604.59             0     125000.00
        --------------------------------------------------------------------
      
                                    SAS システム                            25
                                                   22:42 Tuesday, May 28, 2002
      --------------------------------- SEX=M --------------------------------
      
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        SHINTYOU  20   171.8200000     5.6008082   160.0000000   181.5000000
        TAIJYUU   20    59.9250000     7.5727263    48.0000000    74.5000000
        KODUKAI   19      39894.74      72511.22             0     300000.00
        --------------------------------------------------------------------
      
      
                                    SAS システム                            29
                                                   22:42 Tuesday, May 28, 2002
      -------------------------------- SEX=F ---------------------------------
      SHINTYOU                                          Cum.              Cum.
      Midpoint                                    Freq  Freq  Percent  Percent
                 |
           150   |**********                         2     2    11.76    11.76
           155   |******************************     6     8    35.29    47.06
           160   |********************               4    12    23.53    70.59
           165   |********************               4    16    23.53    94.12
           170   |*****                              1    17     5.88   100.00
                 |
                 -----+----+----+----+----+----+
                      1    2    3    4    5    6
                            Frequency
      
      
                                    SAS システム                            32
                                                   22:42 Tuesday, May 28, 2002
      -------------------------------- SEX=M ---------------------------------
      SHINTYOU                                          Cum.              Cum.
      Midpoint                                    Freq  Freq  Percent  Percent
                 |
           160   |*****                              1     1     5.00     5.00
           165   |********************               4     5    20.00    25.00
           170   |******************************     6    11    30.00    55.00
           175   |******************************     6    17    30.00    85.00
           180   |***************                    3    20    15.00   100.00
                 |
                 -----+----+----+----+----+----+
                      1    2    3    4    5    6
                            Frequency
      
                                    SAS システム                            35
                                                   22:42 Tuesday, May 28, 2002
          SEX   SHINTYOU                            Cum.              Cum.
                Midpoint                      Freq  Freq  Percent  Percent
                           |
                     150   |                     0     0     0.00     0.00
                     156   |                     0     0     0.00     0.00
                     162   |                     0     0     0.00     0.00
                     168   |**                   1     1     2.63     2.63
                     174   |                     0     1     0.00     2.63
                     180   |                     0     1     0.00     2.63
                           |
          F          150   |****                 2     3     5.26     7.89
                     156   |**************       7    10    18.42    26.32
                     162   |********             4    14    10.53    36.84
                     168   |******               3    17     7.89    44.74
                     174   |**                   1    18     2.63    47.37
                     180   |                     0    18     0.00    47.37
                           |
          M          150   |                     0    18     0.00    47.37
                     156   |                     0    18     0.00    47.37
                     162   |**                   1    19     2.63    50.00
                     168   |****************     8    27    21.05    71.05
                     174   |**************       7    34    18.42    89.47
                     180   |********             4    38    10.53   100.00
                           |
                           ----+---+---+---+
                               2   4   6   8
                               Frequency
      
      
                                    SAS システム                            53
                                                   22:42 Tuesday, May 28, 2002
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                      Moments
      
                      N                17  Sum Wgts         17
                      Mean       158.7941  Sum          2699.5
                      Std Dev     6.32223  Variance   39.97059
                      Skewness   0.286687  Kurtosis   -0.71459
                      USS        429304.3  CSS        639.5294
                      CV           3.9814  Std Mean   1.533366
                      T:Mean=0   103.5592  Pr>|T|       0.0001
                      Num ^= 0         17  Num > 0          17
                      M(Sign)         8.5  Pr>=|M|      0.0001
                      Sgn Rank       76.5  Pr>=|S|      0.0001
      
                                    SAS システム                            55
                                                   22:42 Tuesday, May 28, 2002
      -------------------------------- SEX=F ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                  Quantiles(Def=5)
      
                       100% Max       171       99%       171
                        75% Q3        163       95%       171
                        50% Med       158       90%       167
                        25% Q1      153.5       10%       152
                         0% Min       148        5%       148
                                                 1%       148
                       Range           23                    
                       Q3-Q1          9.5                    
                       Mode           153                    
      
      
                                    SAS システム                            73
                                                   22:42 Tuesday, May 28, 2002
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                      Moments
      
                      N                20  Sum Wgts         20
                      Mean         171.82  Sum          3436.4
                      Std Dev    5.600808  Variance   31.36905
                      Skewness   -0.12986  Kurtosis    -0.3941
                      USS        591038.3  CSS         596.012
                      CV         3.259695  Std Mean   1.252379
                      T:Mean=0   137.1949  Pr>|T|       0.0001
                      Num ^= 0         20  Num > 0          20
                      M(Sign)          10  Pr>=|M|      0.0001
                      Sgn Rank        105  Pr>=|S|      0.0001
      
                                    SAS システム                            75
                                                   22:42 Tuesday, May 28, 2002
      -------------------------------- SEX=M ---------------------------------
                                Univariate Procedure
      Variable=SHINTYOU
                                  Quantiles(Def=5)
      
                       100% Max     181.5       99%     181.5
                        75% Q3     176.55       95%    180.75
                        50% Med    171.75       90%     179.5
                        25% Q1      167.5       10%       165
                         0% Min       160        5%     162.5
                                                 1%       160
                       Range         21.5                    
                       Q3-Q1         9.05                    
                       Mode           165                    
      
      
                                    SAS システム                            92
                                                   22:42 Tuesday, May 28, 2002
                                Univariate Procedure
                                  Schematic Plots
      Variable=SHINTYOU
      
                      |                                        
                  180 +                                    |   
                      |                        |        *--+--*
                      |         *--+--*        |        +-----+
                  160 +                     *--+--*        |   
                      |                     +-----+            
                      |                        |               
                  140 +                                        
                       ------------+-----------+-----------+-----------
                  SEX                             F           M
      
                                    SAS システム                            93
                                                   22:42 Tuesday, May 28, 2002
                                Univariate Procedure
                                  Schematic Plots
      Variable=TAIJYUU
      
                   80 +                                        
                      |                                    |   
                      |                                 +-----+
                   60 +         *--+--*                 *--+--*
                      |                     +-----+     +-----+
                      |                     *--+--*        |   
                   40 +                     +-----+            
                      |                        |               
                      |                                        
                   20 +                                        
                       ------------+-----------+-----------+-----------
                  SEX                             F           M
      
                                    SAS システム                            94
                                                   22:42 Tuesday, May 28, 2002
                                Univariate Procedure
                                  Schematic Plots
      Variable=KODUKAI
      
               300000 +                                    *   
                      |                                        
                      |                                        
               200000 +                                        
                      |                                        
                      |                        |           0   
               100000 +                        |               
                      |                     *--+--*            
                      |         *--+--*     +-----+     *--+--*
                    0 +                        |        +-----+
                       ------------+-----------+-----------+-----------
                  SEX                             F           M
      

    3. [テクニック] グループを分けて分析する場合は、事前に並べ替えが必要
    4. [演習] 垂直棒グラフで比較してみよ。

  4. 分布の把握について : 気をつける点

  5. レポートの作成手順
    SAS の「計算結果(Output エリアの内容)」は、 それをファイルに保存(file コマンド)後、 Windows マシンに転送して(ffftp)、利用する。
    計算結果は全部を引用するのではなく、必要部分だけを切り出し、 説明を付与する事によって完成せよ。
    UNIX マシン上でレポートを作成することも不可能ではないが、 日本語の入力方法の問題や、プリンタが接続されていない事等があるので、 現実的には教室の Windows マシン(や個人所有のパソコン)で 処理するのが妥当であろう。 そのためには「転送」の処理が中間に介在する必要がある。

    1. プログラムの作成、デバッグ
    2. 解析結果の保存 : Outputエリアの内容をファイルに保存
      1. プログラムを実行(SUBmit)する前に、 Outputエリアの過去の記録を消去しておく: [入力] clear
        この処理をしておかないと、過去の全ての(不要な、多大な)記録が全部保存される。
      2. プログラムを実行(SUBmit)
      3. 出力結果の保存 :
        Outputエリアのコマンド行で : [入力] file 'les0709.lst'
        プログラムの保存と同じコマンドだが、保存対象が異なる。
    3. 保存した解析結果を Windows 側に転送(ffftp)
    4. ワープロやエディタを使って、レポートを作成。 出力の必要部分だけを切り出して、レポートに挿入する。
    5. 紙に印刷するか、電子メールで提出。

  6. レポート提出 : これまでの演習を参考に、SAS の手法(プロシジャー)を適用して、 統計解析を行ってみよ。 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 対象に選んだかの理由等も報告する事。考察も大事。
    1. 対象データ : 以下の 1〜3 の中から 最低、2つ。
      1. 皆さんから収集したデータ(waseda02.prn)
      2. 連休中に収集してもらった興味あるデータ(個人ごとに異なる) : 2つ以上あるはず
      3. その他

    2. 提出期限 : 6月11日(火) 17:50 まで : 電子メールかワープロ(or エディタ)で。手書きは不可。
      注意1: 紙で提出する場合は、事務所の受付終了時刻に注意すること。提出日は事務室の受領印で判断する。
      注意2: 電子メールでの場合は、添付ファイルは使わないこと。 提出用メールアドレスは「hayashi@peter.rd.dnc.ac.jp」である。 また、提出日時はメールヘッダーから判断する。私からは受領確認メールを出すので、それを受け取った段階で提出作業完了とする。
      注意3: 連絡ページ に受領した者の学籍番号を掲載するので、確認に使ってほしい。

    3. 作業内容 : 以下の点に注意しながらレポートを作成しよう。
      1. 解析対象とするデータの数は、最低 2つとする(上限は設けない)。 1つだけではダメ
      2. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 解析対象に選んだかの理由等も報告する事。 加えて、特に得られた知見からの考察は大事。
      3. レポートは他人への、もの事の説明のための文書である!!
      4. 手入力を少なくして SAS の出力を最大限有効利用せよ。 しかし、不要な部分はカットせよ。だらだらと引用しないこと。
      5. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    4. 必要事項 : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • 使ったデータ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

      • 講義の進め方や内容等について、感想や意見も。

  7. 次回は、... : 6月13日 14:45
[DIR]講義のホームページへ戻ります