基礎統計量

統計解析 02 クラス : 第05回 (05/18/06)

 今回は各変量の性質や分布形状を把握する上で有用な基礎統計量について紹介する。
  1. 基礎統計量 : 性質や分布特性の把握に役立つ統計量
     内閣の閣僚資産データを対象に算出してみよう。
    1. プログラム : les0501.sas : les0305.sas を活用してもよい
     /* Lesson 5-01 */
     /*    File Name = les0501.sas   05/18/06   */
    
    data naikaku;
      infile 'naikaku0512.prn'
        firstobs=2;
      input name $10. posit $ sex $ tochi 
            yotyokin total honnin kasituke kariire
    ;
    proc print data=naikaku(obs=5);
    run;
    proc means data=naikaku;
      var tochi yotyokin total;
    run;
    proc univariate data=naikaku plot;    : 基礎統計量の算出、plot オプション
      var tochi yotyokin total;           : 指定した変量について計算
    run;                                  :
    
    1. 出力結果 : les0501.lst
                                    SAS システム                             1
                                                 19:50 Wednesday, May 17, 2006
      
       OBS NAME      POSIT   SEX TOCHI YOTYOKIN TOTAL HONNIN KASITUKE KARIIRE
      
         1 Koizumi  Kakuryou  M  10743   2360   13103  13103       0       0 
         2 Takenaka Kakuryou  M   3002   1071    4073   1213    6065    1681 
         3 Sugiura  Kakuryou  M   1755    796    2551   2071       0       0 
         4 Aso      Kakuryou  M  37779   7850   45629  40379   20100    2000 
         5 Kosaka   Kakuryou  M   5596   1300    6896   5224       0       0 
      
                                    SAS システム                             2
                                                 19:50 Wednesday, May 17, 2006
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        TOCHI     60       4053.98       5987.72             0      37779.00
        YOTYOKIN  60       2483.67       3671.17             0      22298.00
        TOTAL     60       6537.67       7631.23             0      45629.00
        --------------------------------------------------------------------
      
                                    SAS システム                             8
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Moments
      
                      N                60  Sum Wgts         60
                      Mean       2483.667  Sum          149020
                      Std Dev    3671.173  Variance   13477511
                      Skewness   3.124504  Kurtosis   13.74865
                      USS        1.1653E9  CSS        7.9517E8
                      CV         147.8126  Std Mean   473.9464
                      T:Mean=0   5.240396  Pr>|T|       0.0001
                      Num ^= 0         50  Num > 0          50
                      M(Sign)          25  Pr>=|M|      0.0001
                      Sgn Rank      637.5  Pr>=|S|      0.0001
      
                                    SAS システム                             9
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=YOTYOKIN
                                  Quantiles(Def=5)
      
                       100% Max     22298       99%     22298
                        75% Q3       3550       95%      9137
                        50% Med    1058.5       90%    7111.5
                        25% Q1        100       10%         0
                         0% Min         0        5%         0
                                                 1%         0
                       Range        22298                    
                       Q3-Q1         3450                    
                       Mode             0                    
      
                                    SAS システム                            10
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      51)     7850(       4)
                              0(      47)     8983(      23)
                              0(      45)     9291(      37)
                              0(      35)     9803(      15)
                              0(      34)    22298(      57)
      
                                    SAS システム                            11
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=YOTYOKIN
                           Histogram               #             Boxplot
              22500+*                              1                *   
                   .                                                    
              12500+                                                    
                   .****                           8                0   
               2500+**************************    51             +--+--+
                    ----+----+----+----+----+-              
                    * may represent up to 2 counts          
      
                                    SAS システム                            12
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=YOTYOKIN
                                   Normal Probability Plot              
               22500+                                                *  
                    |                                                   
               12500+                                              +++++
                    |                                ++++****+**+*+     
                2500+  *   * ** ******* *****************               
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            13
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=TOTAL
                                      Moments
      
                      N                60  Sum Wgts         60
                      Mean       6537.667  Sum          392260
                      Std Dev    7631.234  Variance   58235739
                      Skewness   3.039733  Kurtosis   12.09356
                      USS        6.0004E9  CSS        3.4359E9
                      CV         116.7272  Std Mean   985.1881
                      T:Mean=0   6.635958  Pr>|T|       0.0001
                      Num ^= 0         59  Num > 0          59
                      M(Sign)        29.5  Pr>=|M|      0.0001
                      Sgn Rank        885  Pr>=|S|      0.0001
      
                                    SAS システム                            14
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=TOTAL
                                  Quantiles(Def=5)
      
                       100% Max     45629       99%     45629
                        75% Q3       7797       95%   20505.5
                        50% Med    4705.5       90%     13395
                        25% Q1       1849       10%       582
                         0% Min         0        5%       101
                                                 1%         0
                       Range        45629                    
                       Q3-Q1         5948                    
                       Mode             0                    
      
                                    SAS システム                            15
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=TOTAL
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      30)    14826(      12)
                             40(      49)    16631(      15)
                             50(      53)    24380(      57)
                            152(      34)    29513(      36)
                            260(      58)    45629(       4)
      
                                    SAS システム                            16
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=TOTAL
         Stem Leaf                                                 #   Boxplot
            4 6                                                    1      *   
            3 0                                                    1      *   
            2 4                                                    1      0   
            1 011223457                                            9      |   
            0 000000111111112233333444444444555555555667777899    48   +--+--+
              ----+----+----+----+----+----+----+----+----+---              
          Multiply Stem.Leaf by 10**+4                                      
      
                                    SAS システム                            17
                                                 19:50 Wednesday, May 17, 2006
                                Univariate Procedure
      Variable=TOTAL
                                   Normal Probability Plot              
               45000+                                                *  
                    |                                                   
               25000+                                          *+*++++++
                    |                              ++++******+*+        
                5000+  *   * ** ***********************                 
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    2. 算出統計量の説明 : 分布形状を把握するのに利用
      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる(99.7%)。
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Minimum & Maximum : 最小値(Min)と最大値(Max)
      • Quantiles : 四分位数
        下位から、0%点(Q0、最小値)、25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)、100%点(Q4 最大値)
      • 範囲(Range) : 最大値(Max)-最小値(Min)
      • 四分偏差 : Q3-Q1
      • Mode : 最頻値(SAS では、複数のモードがある場合はその中の最小値が表示される)
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        時刻表にも似ている
      • Histogram : 度数分布。頻度が少ない場合は、樹葉図が描かれる

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端、中央線、上端は、それぞれ 25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)。
        プラス(+) は平均値。* は最頻値。
        髭 : 箱からの距離が、
        1.5x[四分偏差] の範囲内にあるサンプルまで伸ばされる。
        髭の外側にサンプルがある場合、
        0(3.0x[四分偏差] の範囲内) や
        *(それより外側) で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        分布が正規分布かどうかを確かめる
        + が基準線、* が対象データ。ずれていると正規性が疑われる。

    3. [Lesson 5-2] Stem and Leaf や Histogram 上における各統計量の位置を確認せよ。

    4. 知見 : 解析によって判ったこと & 解ったこと
      • 内閣の閣僚資産データにおける「総資産」について観てみると、
        • 公開した閣僚は 60名である。
        • 0万円から 45629万円の間に散らばっており、幅は 45629万円である。
        • 四分位偏差でみると 5948万円である。
        • 平均値は 6538万円、中央値は 4706万円、最頻値は 0万円である。
        • 頻度分布を見ると少額の方に大幅に偏っていることが判る。
        • そのことは箱髭図からも判る。
        • (総資産の分布は正規分布からはかけ離れていると言える。)

        • Mode(最頻値) の表示は少し注意が必要 (SAS の場合)

      [参考] 例えば 1000万円の単位に四捨五入して最頻値を調べる方法もある。 そのためには「round」と言う関数を用いればよい。 このようにして求めた最頻値は 4000万円であった。

      • プログラム例(以下は部分) : les0501round.sas、 出力結果 : les0501round.lst
        data naikaku;
          infile 'naikaku0512.prn'
            firstobs=2;
          input name $10. posit $ sex $ tochi 
                yotyokin total honnin kasituke kariire
        ;
        tot1000=round(total,1000);
        

  2. 「平均」とは? : 中間? 真ん中? 代表値? 大体の目安? ...

    貯蓄現在高 階級別世帯分布 (全世帯)
    グラフ 貯蓄現在高回級別世帯分布(全世帯) H17

    分布形状と統計量

  3. 計算結果を利用した報告書の作成手順 : 前々回 の 9節 : 出力結果の保存も参照のこと
     報告書を作成するような場合、いちいち書き移すようなことはせず、 SAS の「計算結果(Output エリアの内容)」を流用すると 簡単でかつ間違いが減り好都合である。 そのためには、「計算結果」をファイルに保存(file コマンド)後、 漢字コードの変換を行ない(nkf)、そして Windows マシンに転送して(WinSCP)、編集するのが良いであろう。
     ただし、報告書には計算結果は全部を引用するのではなく、 必要部分だけを切り出し、それぞれに説明を付与する事によって完成するのが、 受け取った人に無駄な労力を払わせずに好印象を持たれると思う。
     なお、UNIX マシン上で報告書を作成することも不可能ではないが、 日本語の入力方法の問題や、プリンタが接続されていない事等があるので、 現実的には教室の Windows マシン(や個人所有のパソコン)で 処理することをお奨めする。

    1. プログラムの作成、デバッグ ===> 完成
    2. 解析結果の保存 : Outputエリアの内容をファイルに保存
      1. プログラムを実行(SUBmit)する前に、 Outputエリアの過去の記録を消去しておく。 この処理をしておかないと、過去の全ての(不要な、多大な)記録が 全部保存されてしまう : [入力] clear
      2. プログラムを実行 : [入力] SUBmit
      3. 出力結果の保存 : Outputエリアのコマンド行で : [入力例] file 'les0599.lst'
        プログラムの保存と同じコマンドだが、保存対象が異なる。
    3. SAS を終了 : [入力] bye
    4. UNIX 上で漢字コードの変換(nkf)。-s オプションは「Shift-JIS」への変換を 指示しているもの : [入力例] nkf -s les0599.lst > les0599s.lst
    5. 保存した解析結果を Windows 側に転送(WinSCP)。
    6. ワープロやエディタを使って、報告書を作成。 出力の必要部分だけを切り出して、報告書に引用する。 その際に、有効桁数等には注意して利用せよ。
    7. (本講義では) 紙に印刷するか、電子メール(メール本文に挿入。添付ファイルは避ける)で提出。

  4. 過去 13回の学生のアンケートデータ(all06a.prn)

  5. 前々回 の 4節と10節 : データ転送と漢字コードの取り扱い : 実際の事例

    [Lesson 5-3] : 各自で学生データの基礎統計量を求めよ。

  6. [予告] レポート提出 : これまでの講義で紹介した SAS の手法(プロシジャー)を利用して、 統計解析を行ってみよ。解析結果だけでなく、データ自身の説明や、 どういうところに興味を持って対象に選んだかの理由等も報告する事。考察も大事。
    1. 対象データ : 以下の 1〜3 の中から 最低、2つ。
      1. 皆さんから収集したアンケートデータ(all06a.prn)
      2. 各自で収集した興味あるデータ(個人ごとに異なる) : 複数あるかも
      3. その他

    2. 提出期限 : 6月7日(水) 14:00 まで : 電子メールかワープロ(or エディタ)で。手書きは不可。

      注意1: 電子メールでの場合は、添付ファイルは使わないこと。 提出用メールアドレスは「hayashi@peter.rd.dnc.ac.jp」である。 また、提出日時はメールヘッダーから判断する。私からは受領確認メールを出すので、それを受け取った段階で提出作業完了とする。
      注意2: 紙で提出する場合は、事務所の受付終了時刻に注意すること。提出日は事務室の受領印で判断する。
      注意3: 連絡ページ に受領した者の学籍番号を掲載するので、確認に使ってほしい。
      注意4: 職場の給電機器の点検のため、 6月2日(金)夕方から5日(月)朝までは、電子メールの受信ができない。

    3. 作業内容 : 以下の点に注意しながらレポートを作成しよう。
      1. 解析対象とするデータの数は、最低 2つであるが上限は設けない。 1つだけではダメ
      2. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 解析対象に選んだかの理由等も報告する事。 加えて、特に得られた知見からの考察は大事。
      3. レポートは他人への、もの事の説明のための文書である!!
      4. 手入力を少なくして SAS の出力を最大限有効利用せよ。 しかし、不要な部分はカットせよ。だらだらと引用しないこと。
      5. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    4. 必要事項 : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • 使ったデータ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

      • 講義の進め方や内容等について、感想や意見も。

  7. 次回は、... : 5月25日 14:45

  8. 次々回は、... : 6月1日

  9. [おまけ] いくつかのファイル形式 : デリミタの指定
    Excel 等で入力したデータを SAS に読み込ませる場合、 講義の中では「スペース区切り(*.prn)」を紹介した。 これ以外の形式のファイルも読み込めるものがあり、 その場合には以下のような SAS のプログラムを用いる。
    「スペース区切り」の場合、セル幅を上手く調節しないと意図通りに読み込ませる ことができないことを経験したかもしれないが、以下の区切り記号の場合は、 そのような心配は生じないので便利だと思われる。

    1. カンマ区切り(csv 形式)のファイルを読む場合 : *.csv
      [コメント] 以下の指定を行っても「,,」と言うように コンマが続いている csv 形式のファイル(欠損値を含んだファイル)はうまく読めない。 エディタ等で事前に「,.,」や「,0,」と置換しておく必要がある。
      data mon2006;
        infile 'd:\home\mon05d.csv' dlm=',' 
               firstobs=2
               truncover; 
      

    2. タブ区切りのファイルを読む場合 : *.txt
      data mon2006;
        infile 'd:\home\mon05e.txt' dlm='09'x 
               firstobs=2
               truncover; 
      
[DIR]講義のホームページへ戻ります