先週の続きと、基礎統計量

統計解析 02 クラス : 第6回 (05/27/04)

 前回 は時間配分をミスって予定のところまで到達できなかった。 そこで今回はまず前回の残りを説明した後、 当該変量の性質や分布形状を把握する上で有用な基礎統計量について紹介する。
  1. 基礎統計量 : 性質や分布特性の把握に役立つ統計量
     内閣の閣僚資産データを対象に算出してみよう。
    1. プログラム : les0601.sas : les0406.sas を活用してもよい
     /* Lesson 6-1 */
     /*    File Name = les0601.sas   05/27/04   */
    
    data naikaku;
      infile 'naikaku0310.prn'
        firstobs=2;
      input name $10. posit $ sex $ tochi 
            yotyokin total honnin kasituke kariire
    ;
    proc print data=naikaku(obs=5);
    run;
    proc means data=naikaku;
      var tochi yotyokin total;
    run;
    proc univariate data=naikaku plot;    : 基礎統計量の算出、plot オプション
      var tochi yotyokin total;           : 指定した変量について計算
    run;                                  :
    
    1. 出力結果 : les0601.lst
                                    SAS システム                             1
                                                 20:45 Wednesday, May 26, 2004
      OBS NAME       POSIT   SEX TOCHI YOTYOKIN TOTAL HONNIN KASITUKE KARIIRE
      
        1 Koizumi   Kakuryou  M  10743    2360  13103  13103       0       0 
        2 Aso       Kakuryou  M  37772    7750  45522  40273   20100    2000 
        3 Nozawa    Kakuryou  M   2315    2114   4429   2912       0       0 
        4 Kawaguchi Kakuryou  F   2266   14330  16596  11344       0       0 
        5 Kawamura  Kakuryou  M   6268    2228   8496   5872       0    1000 
      
                                    SAS システム                             2
                                                 20:45 Wednesday, May 26, 2004
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        TOCHI     60       4077.17       6398.74             0      37772.00
        YOTYOKIN  60       1684.12       2530.42             0      14330.00
        TOTAL     60       5761.28       7444.75             0      45522.00
        --------------------------------------------------------------------
      
                                    SAS システム                             3
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOCHI
                                      Moments
      
                      N                60  Sum Wgts         60
                      Mean       4077.167  Sum          244630
                      Std Dev    6398.745  Variance   40943937
                      Skewness   3.799833  Kurtosis   15.81961
                      USS        3.4131E9  CSS        2.4157E9
                      CV          156.941  Std Mean   826.0744
                      T:Mean=0   4.935592  Pr>|T|       0.0001
                      Num ^= 0         57  Num > 0          57
                      M(Sign)        28.5  Pr>=|M|      0.0001
                      Sgn Rank      826.5  Pr>=|S|      0.0001
      
                                    SAS システム                             4
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOCHI
                                  Quantiles(Def=5)
      
                       100% Max     37772       99%     37772
                        75% Q3       4332       95%   17806.5
                        50% Med      2196       90%      7196
                        25% Q1       1149       10%       532
                         0% Min         0        5%     172.5
                                                 1%         0
                       Range        37772                    
                       Q3-Q1         3183                    
                       Mode             0                    
      
                                    SAS システム                             5
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOCHI
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      53)     7671(      30)
                              0(      33)    10743(       1)
                              0(      27)    24870(      38)
                            345(      54)    25595(      48)
                            426(      24)    37772(       2)
      
                                    SAS システム                             6
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOCHI
         Stem Leaf                                                #    Boxplot
            3 8                                                   1       *   
            3                                                                 
            2 56                                                  2       *   
            2                                                                 
            1                                                                 
            1 1                                                   1       0   
            0 555667778                                           9       |   
            0 00000011111111111112222222222222222333333334444    47    +--+--+
              ----+----+----+----+----+----+----+----+----+--              
          Multiply Stem.Leaf by 10**+4                                     
      
                                    SAS システム                             7
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOCHI
                                   Normal Probability Plot              
               37500+                                                *  
                    |                                                   
                    |                                            *      
                    |                                          *       +
                    |                                           +++++++ 
                    |                                   ++++++*+        
                    |                           ++++++*******           
                2500+  *   * ** ***********************                 
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                             8
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Moments
      
                      N                60  Sum Wgts         60
                      Mean       1684.117  Sum          101047
                      Std Dev    2530.423  Variance    6403038
                      Skewness   2.913734  Kurtosis   10.58346
                      USS        5.4795E8  CSS        3.7778E8
                      CV         150.2522  Std Mean   326.6761
                      T:Mean=0    5.15531  Pr>|T|       0.0001
                      Num ^= 0         53  Num > 0          53
                      M(Sign)        26.5  Pr>=|M|      0.0001
                      Sgn Rank      715.5  Pr>=|S|      0.0001
      
                                    SAS システム                             9
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=YOTYOKIN
                                  Quantiles(Def=5)
      
                       100% Max     14330       99%     14330
                        75% Q3       1957       95%      6794
                        50% Med     690.5       90%      4805
                        25% Q1        275       10%         0
                         0% Min         0        5%         0
                                                 1%         0
                       Range        14330                    
                       Q3-Q1         1682                    
                       Mode             0                    
      
                                    SAS システム                            10
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      57)     5254(      11)
                              0(      42)     5838(      31)
                              0(      39)     7750(       2)
                              0(      37)     8548(      17)
                              0(      35)    14330(       4)
      
                                    SAS システム                            11
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=YOTYOKIN
         Stem Leaf                                              #      Boxplot
           14 3                                                 1         *   
           12                                                                 
           10                                                                 
            8 5                                                 1         *   
            6 8                                                 1         *   
            4 138838                                            6         0   
            2 122494                                            6      +-----+
            0 000000001112222334444555666667778899903556668    45      *--+--*
              ----+----+----+----+----+----+----+----+----+              
          Multiply Stem.Leaf by 10**+3                                   
      
                                    SAS システム                            12
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=YOTYOKIN
                                   Normal Probability Plot              
               15000+                                                *  
                    |                                                   
                    |                                                   
                    |                                            *     +
                    |                                          *+++++++ 
                    |                                   +****+*+        
                    |                           +++++****               
                1000+  *   * ** **** ****************                   
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            13
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOTAL
                                      Moments
      
                      N                60  Sum Wgts         60
                      Mean       5761.283  Sum          345677
                      Std Dev    7444.749  Variance   55424294
                      Skewness   3.595012  Kurtosis   15.27878
                      USS        5.2616E9  CSS          3.27E9
                      CV         129.2203  Std Mean    961.113
                      T:Mean=0   5.994387  Pr>|T|       0.0001
                      Num ^= 0         59  Num > 0          59
                      M(Sign)        29.5  Pr>=|M|      0.0001
                      Sgn Rank        885  Pr>=|S|      0.0001
      
                                    SAS システム                            14
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOTAL
                                  Quantiles(Def=5)
      
                       100% Max     45522       99%     45522
                        75% Q3     6751.5       95%   21295.5
                        50% Med      3911       90%    9603.5
                        25% Q1       1794       10%    1095.5
                         0% Min         0        5%     646.5
                                                 1%         0
                       Range        45522                    
                       Q3-Q1       4957.5                    
                       Mode             0                    
      
                                    SAS システム                            15
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOTAL
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      33)    13103(       1)
                            183(      27)    16596(       4)
                            526(      24)    25995(      48)
                            767(      58)    29640(      38)
                            930(      54)    45522(       2)
      
                                    SAS システム                            16
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOTAL
                           Histogram               #             Boxplot
             45000+*                               1                *   
                  .                                                     
             25000+*                               2                *   
                  .**                              3                0   
              5000+***************************    54             +--+--+
                   ----+----+----+----+----+--              
                   * may represent up to 2 counts           
      
                                    SAS システム                            17
                                                 20:45 Wednesday, May 26, 2004
                                Univariate Procedure
      Variable=TOTAL
                                   Normal Probability Plot              
               45000+                                                *  
                    |                                                   
               25000+                                          * *++++++
                    |                               +++++++**+*+++      
                5000+  *   * ** ***************************             
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    2. 算出統計量の説明 : 分布形状を把握するのに利用
      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる(99.7%)。
      • Minimum & Maximum : 最小値と最大値
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Quantiles : 四分位数
        下位から、0%点(Q0、最小値)、25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)、100%点(Q4 最大値)
      • 範囲(Range) : 最大値(Max)-最小値(Min)
      • 四分偏差 : Q3-Q1
      • Mode : 最頻値(SAS では、複数のモードがある場合はその中の最小値が表示される)
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        時刻表にも似ている
      • Histogram : 度数分布。頻度が少ない場合は、樹葉図が描かれる

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端、中央線、上端は、それぞれ 25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)。
        プラス(+) は平均値。* は最頻値。
        髭 : 箱からの距離が、
        1.5x[四分偏差] の範囲内にあるサンプルまで伸ばされる。
        髭の外側にサンプルがある場合、
        0(3.0x[四分偏差] の範囲内) や
        *(それより外側) で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        分布が正規分布かどうかを確かめる
        + が基準線、* が対象データ。ずれていると正規性が疑われる。

    3. [演習] Stem and Leaf や Histogram 上で各統計量の位置を確認せよ。

    4. 知見 : 解析によって判ったこと & 解ったこと
      • 内閣の閣僚資産データにおける、総資産について観てみると、
        • 公開した閣僚は 60名である。
        • 0万円から 45500万円の間に散らばっており、幅は 45500万円である。
        • 四分位偏差でみると 4960万円である。
        • 平均値は 5760万円、中央値は 3910万円、最頻値は 0万円である。
        • 頻度分布を見ると少額の方に大幅に偏っていることが判る。
        • そのことは箱髭図からも判る。
        • 総資産の分布は正規分布からはかけ離れていると言える。

        • Mode(最頻値) の表示は少し注意が必要 (SAS の場合)
      [参考] 例えば 1000万円の単位に四捨五入して最頻値を調べる方法もある。 そのためには「round」と言う関数を用いればよい。 このようにして求めた最頻値は 2000万円であった。
      1. プログラム例(以下は部分) : les0601round.sas
        tot1000=round(total,1000);
        
      2. 出力結果 : les0601round.lst

  2. 「平均」とは? : 中間? 真ん中? 代表値? 大体の目安? ...

    貯蓄現在高 階級別世帯分布 (全世帯) グラフ 貯蓄現在高回級別世帯分布(全世帯)

    分布形状と統計量

  3. レポートの作成手順
    SAS の「計算結果(Output エリアの内容)」は、 それをファイルに保存(file コマンド)後、 Windows マシンに転送して(FFFTP)、利用する。
    レポートには計算結果は全部を引用するのではなく、必要部分だけを切り出し、 説明を付与する事によって完成せよ。
    UNIX マシン上でレポートを作成することも不可能ではないが、 日本語の入力方法の問題や、プリンタが接続されていない事等があるので、 現実的には教室の Windows マシン(や個人所有のパソコン)で 処理するのが妥当であろう。 そのためには「転送」の処理が中間に介在する必要がある。

    1. プログラムの作成、デバッグ ===> 完成
    2. 解析結果の保存 : Outputエリアの内容をファイルに保存
      1. プログラムを実行(SUBmit)する前に、 Outputエリアの過去の記録を消去しておく: [入力] clear
        この処理をしておかないと、過去の全ての(不要な、多大な)記録が全部保存される。
      2. プログラムを実行(SUBmit)
      3. 出力結果の保存 :
        Outputエリアのコマンド行で : [入力例] file 'les0699.lst'
        プログラムの保存と同じコマンドだが、保存対象が異なる。
    3. 保存した解析結果を Windows 側に転送(FFFTP)
    4. ワープロやエディタを使って、レポートを作成。 出力の必要部分だけを切り出して、レポートに挿入する。
    5. 紙に印刷するか、電子メールで提出。

  4. 使用データ : 過去 9回の学生のアンケートデータ(all04a.prn)

    1. [参考] プログラム例 : les0602.sas
       /* Lesson 6-02 */
       /*    File Name = les0602.sas   05/27/04   */
      
      data gakusei;
        infile 'all04a.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=5);
      run;
      proc means data=gakusei;
      run;
      proc univariate data=gakusei plot;
        var shintyou taijyuu kyoui kodukai;
      run;
      

    2. 出力結果 : les0602.lst

  5. レポート提出 : これまでの講義で紹介した SAS の手法(プロシジャー)を利用して、 統計解析を行ってみよ。解析結果だけでなく、データ自身の説明や、 どういうところに興味を持って対象に選んだかの理由等も報告する事。考察も大事。
    1. 対象データ : 以下の 1〜4 の中から 最低、1つ。以下は希望的優先順位。
      1. 皆さんから収集したアンケートからのデータ(all04a.prn)
      2. 連休中に収集してもらった興味あるデータ(個人ごとに異なる) : 複数あるかも
      3. 内閣の閣僚資産データ(naikaku0310.prn)
      4. その他

    2. 提出期限 : 6月8日(火) 17:00 まで : 電子メールかワープロ(or エディタ)で。手書きは不可。
      注意1: 電子メールでの場合は、添付ファイルは使わないこと。 提出用メールアドレスは「hayashi@peter.rd.dnc.ac.jp」である。 また、提出日時はメールヘッダーから判断する。私からは受領確認メールを出すので、それを受け取った段階で提出作業完了とする。
      注意2: 紙で提出する場合は、事務所の受付終了時刻に注意すること。提出日は事務室の受領印で判断する。
      注意3: 連絡ページ に受領した者の学籍番号を掲載するので、確認に使ってほしい。

    3. 作業内容 : 以下の点に注意しながらレポートを作成しよう。
      1. 解析対象とするデータの数は、最低 1つであるが上限は設けない。
      2. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 解析対象に選んだかの理由等も報告する事。 加えて、特に得られた知見からの考察は大事。
      3. レポートは他人への、もの事の説明のための文書である!!
      4. 手入力を少なくして SAS の出力を最大限有効利用せよ。 しかし、不要な部分はカットせよ。だらだらと引用しないこと。
      5. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    4. 必要事項 : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • 使ったデータ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

      • 講義の進め方や内容等について、感想や意見も。

  6. 次回は、... : 6月10日 14:45
[DIR]講義のホームページへ戻ります