基礎統計量

統計解析 05 クラス : 第05回 (10/29/08)

 最初に前回やり残した部分を説明した後、 今回は各変量の性質や分布形状を把握する上で有用な基礎統計量について紹介する。
  1. 基礎統計量 : 性質や分布特性の把握に役立つ統計量
     内閣の閣僚資産データを対象に算出してみよう。
    1. プログラム : les0501.sas : les0402.sasles0403.sas を活用すると労力が軽減される
     /* Lesson 5-01 */
     /*    File Name = les0501.sas   10/22/08   */
    
    data naikaku;
      infile 'naikaku0710.prn'
        firstobs=2;
      input name $13. posit $ sex $ tochi 
            yotyokin total honnin kasituke kariire
    ;
    proc print data=naikaku(obs=5);
    run;
    proc means data=naikaku;
      var tochi yotyokin total;
    run;
    proc univariate data=naikaku plot;    : 基礎統計量の算出、plot オプション
      var tochi yotyokin total;           : 指定した変量について計算
    run;                                  :
    
    1. 出力結果 : les0501.lst
                                    SAS システム                             1
                                             11:08 Wednesday, October 29, 2008
       OBS   NAME    POSIT   SEX TOCHI YOTYOKIN TOTAL HONNIN KASITUKE KARIIRE
      
         1 Fukuda   Kakuryou  M   6731     480   7211   7031     0      3800 
         2 Masuda   Kakuryou  M   1416    5380   6796   6047     0         0 
         3 Hatoyama Kakuryou  M  52728   20308  73036  72481     0     40000 
         4 Komoto   Kakuryou  M   6163    1861   8024   6713     0         0 
         5 Nukaga   Kakuryou  M   4695     200   4895   3682     0      7500 
      
                                    SAS システム                             2
                                             11:08 Wednesday, October 29, 2008
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        TOCHI     69       6451.67      11945.19             0      60729.00
        YOTYOKIN  69       3277.99       6557.29             0      36149.00
        TOTAL     69       9729.64      16334.46             0      84817.00
        --------------------------------------------------------------------
      
                                    SAS システム                             8
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Moments
      
                      N                69  Sum Wgts         69
                      Mean       3277.986  Sum          226181
                      Std Dev    6557.285  Variance   42997992
                      Skewness   3.521234  Kurtosis   13.37013
                      USS        3.6653E9  CSS        2.9239E9
                      CV         200.0401  Std Mean   789.4044
                      T:Mean=0   4.152479  Pr>|T|       0.0001
                      Num ^= 0         56  Num > 0          56
                      M(Sign)          28  Pr>=|M|      0.0001
                      Sgn Rank        798  Pr>=|S|      0.0001
      
                                    SAS システム                             9
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=YOTYOKIN
                                  Quantiles(Def=5)
      
                       100% Max     36149       99%     36149
                        75% Q3       2900       95%     17286
                        50% Med      1242       90%      7245
                        25% Q1        115       10%         0
                         0% Min         0        5%         0
                                                 1%         0
                       Range        36149                    
                       Q3-Q1         2785                    
                       Mode             0                    
      
                                    SAS システム                            10
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      63)    14651(      38)
                              0(      60)    17286(      23)
                              0(      59)    20308(       3)
                              0(      58)    30925(      32)
                              0(      47)    36149(       7)
      
                                    SAS システム                            11
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=YOTYOKIN
                           Histogram                 #             Boxplot
            37500+*                                  1                *   
                 .*                                  1                *   
                 .                                                        
                 .*                                  1                *   
                 .*                                  1                *   
                 .*                                  2                *   
                 .**                                 4                0   
             2500+******************************    59             +--+--+
                  ----+----+----+----+----+----+              
                  * may represent up to 2 counts              
      
                                    SAS システム                            12
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=YOTYOKIN
                                   Normal Probability Plot              
               37500+                                                 * 
                    |                                             *     
                    |                                                   
                    |                                           *       
                    |                                         * ++++++++
                    |                                    +++**++        
                    |                            ++++++++***            
                2500+ *   * * ***************************               
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            13
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=TOTAL
                                      Moments
      
                      N                69  Sum Wgts         69
                      Mean       9729.638  Sum          671345
                      Std Dev    16334.46  Variance   2.6681E8
                      Skewness   3.190038  Kurtosis    10.5297
                      USS        2.468E10  CSS        1.814E10
                      CV         167.8835  Std Mean   1966.438
                      T:Mean=0    4.94785  Pr>|T|       0.0001
                      Num ^= 0         67  Num > 0          67
                      M(Sign)        33.5  Pr>=|M|      0.0001
                      Sgn Rank       1139  Pr>=|S|      0.0001
      
                                    SAS システム                            14
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=TOTAL
                                  Quantiles(Def=5)
      
                       100% Max     84817       99%     84817
                        75% Q3       8024       95%     39829
                        50% Med      4223       90%     23800
                        25% Q1       2435       10%       668
                         0% Min         0        5%       303
                                                 1%         0
                       Range        84817                    
                       Q3-Q1         5589                    
                       Mode             0                    
      
                                    SAS システム                            15
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=TOTAL
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      63)    37336(      23)
                              0(      59)    39829(      38)
                            115(      69)    66804(      19)
                            303(      50)    73036(       3)
                            403(      16)    84817(      32)
      
                                    SAS システム                            16
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=TOTAL
         Stem Leaf                                      #             Boxplot
            8 5                                         1                *   
            8                                                                
            7                                                                
            7 3                                         1                *   
            6 7                                         1                *   
            6                                                                
            5                                                                
            5                                                                
            4                                                                
            4 0                                         1                *   
            3 67                                        2                *   
            3                                                                
            2                                                                
            2 114                                       3                0   
            1 7                                         1                0   
            1 01122                                     5                +   
            0 55555566677788899                        17             +-----+
            0 0000011111111222223333333333444444444    37             *-----*
              ----+----+----+----+----+----+----+--              
          Multiply Stem.Leaf by 10**+4                           
      
                                    SAS システム                            17
                                             11:08 Wednesday, October 29, 2008
                                Univariate Procedure
      Variable=TOTAL
                                   Normal Probability Plot              
               85000+                                                 * 
                    |                                             *     
                    |                                           *       
                    |                                                  +
               45000+                                            ++++++ 
                    |                                      +***++       
                    |                                +++++**            
                    |                          ++++++  ***              
                5000+ *   * * *************************                 
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    2. 算出統計量の説明 : 分布形状を把握するのに利用
      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる(99.7%)。
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Minimum & Maximum : 最小値(Min)と最大値(Max)
      • Quantiles : 四分位数
        下位から、0%点(Q0、最小値)、25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)、100%点(Q4 最大値)
      • 範囲(Range) : 最大値(Max)-最小値(Min)
      • 四分偏差 : Q3-Q1
      • Mode : 最頻値(SAS では、複数の最頻値がある場合はその中の最小値が表示される)
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        時刻表にも似ている
      • Histogram : 度数分布。頻度が少ない場合は、樹葉図が描かれる

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端、中央線、上端は、それぞれ 25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)。
        プラス(+) は平均値。* は最頻値。
        髭 : 箱からの距離が、
        1.5x[四分偏差] の範囲内にあるサンプルまで伸ばされる。
        髭の外側にサンプルがある場合、
        0(3.0x[四分偏差] の範囲内) や
        *(それより外側) で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット ===> 後日説明
        分布が正規分布かどうかを確かめる
        + が基準線、* が対象データ。ずれていると正規性が疑われる。

      • [参考] テキスト P11〜23: 2.1節〜2.4.1節

    3. [Lesson 5-2] Stem and Leaf や Histogram 上における各統計量の位置を確認せよ。

    4. 知見 : 解析によって判ったこと & 解ったこと
      • 内閣の閣僚資産データにおける「総資産」について観てみると、
        • 公開した閣僚は 69名である。
        • 0万円から 84817万円の間に散らばっており、幅は 84817万円である。
        • 四分位偏差でみると 5589万円である。
        • 平均値は 9730万円、中央値は 4223万円、最頻値は 0万円である。
        • 頻度分布を見ると少額の方に大幅に偏っていることが判る。
        • そのことは箱髭図からも判る。
        • (総資産の分布は正規分布 or 対称分布からはかけ離れていると言える。)

        • Mode(最頻値) の表示は少し注意が必要 (SAS の場合)

      [参考1] 上記の箱髭図は潰れていて理解し難い部分もあるので、別の例として、皆さんの身長のデータを図に表わしたものを以下に示す。

                                Univariate Procedure
      Variable=SHINTYOU
                           Histogram                    #             Boxplot
         187.5+**                                       5                |   
              .********                                23                |   
              .*******************                     57                |   
              .************************************   106             +-----+
         167.5+*************************               73             *--+--*
              .********************                    58             +-----+
              .***************                         43                |   
              .******                                  18                |   
         147.5+**                                       6                |   
               ----+----+----+----+----+----+----+-              
               * may represent up to 3 counts                    
      
      [参考2] 例えば 1000万円の単位に四捨五入して最頻値を調べる方法もある。 そのためには「round」と言う関数を用いればよい。 このようにして求めた最頻値は 1000万円であった。
      • プログラム例(以下は部分) : les0501round.sas、 出力結果 : les0501round.lst
        data naikaku;
          infile 'naikaku0710.prn'
            firstobs=2;
          input name $10. posit $ sex $ tochi 
                yotyokin total honnin kasituke kariire
        ;
        tot1000=round(total,1000);
        

  2. 「平均」とは? : 中間? 真ん中? 代表値? 大体の目安? ...

    貯蓄現在高 階級別世帯分布 (二人以上の世帯)
    グラフ 貯蓄現在高回級別世帯分布(二人以上の世帯) H18

    分布形状と統計量

  3. 過去 18回の学生のアンケートデータ(all08b.prn)

  4. [おさらい] 漢字コードの取り扱いとデータ転送 : 前回 の6節、 前々回 の4節

  5. [おさらい] 計算結果を利用した報告書の作成手順 : 前回 の 4節、 5節
     報告書(レポート)を作成するような場合、いちいち書き移すようなことはせず、 SAS の「計算結果(Output エリアの内容)」を流用すると 簡単でかつ間違いが減り好都合である。 そのためには、「計算結果」をファイルに保存(file コマンド)後、 漢字コードの変換を行ない(nkf)、そして Windows マシンに転送して(WinSCP)、編集するのが良いであろう。
     ただし、報告書には計算結果は全部を引用するのではなく、 必要部分だけを切り出し、それぞれに説明を付与する事によって完成するのが、 受け取った人に無駄な労力を払わせずに好印象を持たれると思う。
     なお、UNIX マシン上で報告書を作成することも不可能ではないが、 日本語の入力方法の問題や、プリンタが接続されていない事等があるので、 現実的には教室の Windows マシン(や個人所有のパソコン)で 処理することをお奨めする。

    1. データの電子化とstat システム側への転送
    2. プログラムの作成、デバッグ ===> 完成
    3. 解析結果の保存 : Outputエリアの内容をファイルに保存
      1. プログラムを実行(SUBmit)する前に、 Outputエリアの過去の記録を消去しておく。 この処理をしておかないと、過去の全ての(不要な、多大な)記録が 全部保存されてしまう : [入力] clear
      2. プログラムを実行 : [入力] SUBmit
      3. 出力結果の保存 : Outputエリアのコマンド行で : [入力例] file 'les0599.lst'
        プログラムの保存と同じコマンドだが、保存対象が異なる。
    4. SAS を終了 : [入力] bye
    5. UNIX 上で漢字コードの変換(nkf)。-s オプションは「Shift-JIS」への変換を 指示しているもの : [入力例] nkf -s les0599.lst > les0599s.lst
    6. 保存した解析結果を Windows 側に転送(WinSCP)。
    7. ワープロやエディタを使って、報告書を作成。 出力の必要部分だけを切り出して、報告書に引用する。 その際に、有効桁数等には注意して利用せよ。
    8. (本講義では) 紙に印刷するか、電子メール(メール本文に挿入。添付ファイルは避ける)で提出。

  6. [レポート提出] : これまでの講義で紹介した SAS の手法(プロシジャー)を利用して、 統計解析を行ってみよ。解析結果だけでなく、データ自身の説明や、 どういうところに興味を持って対象に選んだかの理由等も報告する事。考察も大事。
    1. 対象データ : 以下の 1〜3 の中から 最低、2つ。
      1. 皆さんから収集したアンケートデータ(all08b.prn)
      2. 各自で収集した興味あるデータ(個人ごとに異なる) : 複数あるかも
      3. 内閣の閣僚資産データ(naikaku0710.prn)
      4. その他

    2. 提出期限 : 11月25日(火) 17:00 まで : 電子メールかワープロ(or エディタ)で。手書きは不可。

      注意1: 電子メールでの場合は、添付ファイルは使わないこと。 提出用メールアドレスは「hayashi@peter.rd.dnc.ac.jp」である。 また、提出日時はメールヘッダーから判断する。私からは受領確認メールを出すので、それを受け取った段階で提出作業完了とする。
      注意2: 紙で提出する場合は、事務所の受付終了時刻に注意すること。提出日は事務室の受領印で判断する。
      注意3: 連絡ページ に受領した者の学籍番号を掲載するので、確認に使ってほしい。

    3. 作業内容 : 以下の点に注意しながらレポートを作成しよう。
      1. 解析対象とするデータの数は、最低 2つであるが上限は設けない。 1つだけではダメ
      2. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 解析対象に選んだかの理由等も報告する事。 加えて、特に得られた知見からの考察は大事。
      3. レポートは他人への、もの事の説明のための文書である!!
      4. 手入力を少なくして SAS の出力を最大限有効利用せよ。 しかし、不要な部分はカットせよ。だらだらと引用しないこと。
      5. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    4. 必要事項 : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • 使ったデータ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

      • 講義の進め方や内容等について、感想や意見も。

  7. 次回は、... : 11月05日 13:10
[DIR]講義のホームページへ戻ります