分布特性の把握

統計処理 01 クラス : 第7回目(06/15/00)

前回の SAS の初歩的なプログラムの続きとして、 データがどのような分布特性を持っているかを把握する指標について紹介する。
  1. 分布特性の把握とそれに役立つ統計量

    Lesson 7-1: 皆さんの小遣いに関するデータ (kodukai00.prn) をファイルから読み込んで小遣い額の平均と基礎統計量を求めてみよう。 なお、ファイル名は各自で命名したものを指定せよ。 ここでは「kodukai00.prn」という名前で説明する。

    1. プログラム : les0701.sas
       /* Lesson 7-1 */
       /*    File Name = les0701.sas   06/15/00   */
      
      data kodukai;                             : データ名の定義
        infile 'kodukai00.prn';                 : ファイル名の指定
        input jitaku $ kodukai;                 : 変量名、型
                                                :
      proc print data=kodukai(obs=10);          : データの表示
      run;                                      :
      proc means data=kodukai;                  : 平均、標準偏差、最大最小値の算出
      run;                                      :
      proc univariate data=kodukai plot;        : 基礎統計量の算出、plot オプション
      run;                                      :
      

    2. 出力結果 : les0701.lst
                                    SAS システム                             1
                                                  20:49 Tuesday, June 13, 2000
      
                              OBS    JITAKU    KODUKAI
      
                                1                   . 
                                2                   0 
                                3      J            0 
                                4      J            0 
                                5      J            0 
                                6      G            0 
                                7      J            0 
                                8      J            0 
                                9      J         7000 
                               10      J        10000 
      
                                    SAS システム                             2
                                                  20:49 Tuesday, June 13, 2000
             Analysis Variable : KODUKAI
      
      
              N          Mean       Std Dev       Minimum       Maximum
             ----------------------------------------------------------
             49      57489.80      57509.10             0     300000.00
             ----------------------------------------------------------
      
                                    SAS システム                             3
                                                  20:49 Tuesday, June 13, 2000
                                Univariate Procedure
      Variable=KODUKAI
      
                                      Moments
      
                      N                49  Sum Wgts         49
                      Mean        57489.8  Sum         2817000
                      Std Dev     57509.1  Variance   3.3073E9
                      Skewness   1.979986  Kurtosis   5.525923
                      USS        3.207E11  CSS        1.588E11
                      CV         100.0336  Std Mean   8215.586
                      T:Mean=0    6.99765  Pr>|T|       0.0001
                      Num ^= 0         42  Num > 0          42
                      M(Sign)          21  Pr>=|M|      0.0001
                      Sgn Rank      451.5  Pr>=|S|      0.0001
      
                                    SAS システム                             4
                                                  20:49 Tuesday, June 13, 2000
                                Univariate Procedure
      Variable=KODUKAI
                                  Quantiles(Def=5)
      
                       100% Max    300000       99%    300000
                        75% Q3      75000       95%    160000
                        50% Med     35000       90%    150000
                        25% Q1      25000       10%         0
                         0% Min         0        5%         0
                                                 1%         0
                       Range       300000                    
                       Q3-Q1        50000                    
                       Mode         30000                    
      
                                    SAS システム                             5
                                                  20:49 Tuesday, June 13, 2000
                                Univariate Procedure
      Variable=KODUKAI
      
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(       8)   150000(      46)
                              0(       7)   160000(      47)
                              0(       6)   160000(      48)
                              0(       5)   165000(      49)
                              0(       4)   300000(      50)
      
                                    SAS システム                             6
                                                  20:49 Tuesday, June 13, 2000
                                Univariate Procedure
      Variable=KODUKAI
                              Missing Value         .
                              Count                 2
                              % Count/Nobs       3.92
      
      
                                    SAS システム                             7
                                                  20:49 Tuesday, June 13, 2000
                                Univariate Procedure
      Variable=KODUKAI
      
              Stem Leaf                            #             Boxplot
                 3 0                               1                *   
                 2                                                      
                 2                                                      
                 1 5666                            4                0   
                 1 00023                           5                |   
                 0 555666677888                   12             +--+--+
                 0 000000011222223333333344444    27             *-----*
                   ----+----+----+----+----+--              
               Multiply Stem.Leaf by 10**+5                 
      
      
                                    SAS システム                             8
                                                  20:49 Tuesday, June 13, 2000
                                Univariate Procedure
      Variable=KODUKAI
                                   Normal Probability Plot              
              325000+                                               *   
                    |                                                   
                    |                                                  +
              175000+                                      **  +*++++++ 
                    |                                 +****++++         
                    |                        +++****+*                  
               25000+   *   * * ******+*+***** *                        
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      

    3. 算出統計量の説明 : 分布形状を把握するのに利用

      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる
      • Minimum & Maximum : 最小値と最大値
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Quantiles : 四分位数
        上位から、0%目(Q0、最小値)、25%目(Q1)、50%目(Q2、
        Median、中央値)、75%目(Q3)、100%目(Q4 最大値)
      • Mode : 最頻値
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        時刻表にも似ている

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端と上端は、25%点と75%点。プラスは平均値。* は最頻値。
        髭 : 下端と上端は、平均値からのずれ。
        髭の外側にある点があれば、それらを 0 や * で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        分布が正規分布かどうかを確かめる

  2. 分布形状を見るには : 平均や基礎統計量から知れる情報とのマッチング

    1. プログラム : les0702.sas
       /* Lesson 7-2 */
       /*    File Name = les0702.sas   06/15/00   */
      
      data kodukai;
        infile 'kodukai00.prn';
        input jitaku $ kodukai;
      
      proc print data=kodukai(obs=10);
      run;                                      :
      proc chart data=kodukai;                  : 図示
        hbar kodukai;                           : 水平棒グラフで
      run;                                      :
      proc chart data=kodukai;                  : 図示
        vbar kodukai;                           : 垂直棒グラフで
      run;                                      :
      

    2. 出力結果 : les0702.lst
      
                                    SAS システム                             2
                                                  20:49 Tuesday, June 13, 2000
      
         KODUKAI                                     Cum.              Cum.
         Midpoint                              Freq  Freq  Percent  Percent
                   |
               0   |**************               14    14    28.57    28.57
           60000   |*************************    25    39    51.02    79.59
          120000   |*****                         5    44    10.20    89.80
          180000   |****                          4    48     8.16    97.96
          240000   |                              0    48     0.00    97.96
          300000   |*                             1    49     2.04   100.00
                   |
                   -----+----+----+----+----+
                        5    10   15   20   25
      
                            Frequency
      
                                    SAS システム                             3
                                                  20:49 Tuesday, June 13, 2000
       Frequency
      
       25 +               *****                                               
          |               *****                                               
       20 +               *****                                               
          |               *****                                               
       15 +     *****     *****                                               
          |     *****     *****                                               
       10 +     *****     *****                                               
          |     *****     *****                                               
        5 +     *****     *****     *****     *****                           
          |     *****     *****     *****     *****                           
          ------------------------------------------------------------------
                  0       60000    120000    180000    240000    300000
      
                                   KODUKAI Midpoint
      

  3. 分布の把握について : 気をつける点

  4. 発展 : 目盛りの区切りを陽に指定するには

    1. プログラム : les0703.sas
      proc chart data=kodukai;
        hbar kodukai / midpoints=0 to 300000 by 10000;
      run;
      proc chart data=kodukai;
        vbar kodukai / midpoints=0 to 300000 by 10000 axis=0 2 4 6 8 10;
      run;
      

    2. 出力結果 : les0703.lst

  5. 演習 : 以前、電子化してもらったデータを 今回の演習例を参考に解析してみよ。 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 対象に選んだかの理由等も報告する事。考察も大事。
    [補足] : 夏休みまでに提出してもらう。期日は後日指定する。
    1. 皆さんの小遣いに関するデータ(kodukai00.prn)
    2. 皆さんの体格に関するデータ(taikaku00.prn)
    3. 連休中に収集してもらった興味あるデータ(個人ごとに異なるはず)

  6. 次回は、... : 6月22日 14:45
[DIR]講義のホームページへ戻ります