基礎統計量

統計解析 06 クラス : 第06回 (11/07/07)

 今回は各変量の性質や分布形状を把握する上で有用な基礎統計量について紹介する。
  1. 基礎統計量 : 性質や分布特性の把握に役立つ統計量
     内閣の閣僚資産データを対象に算出してみよう。
    1. プログラム : les0601.sas : les0502.sasles0503.sas を活用してもよい
     /* Lesson 6-01 */
     /*    File Name = les0601.sas   11/07/07   */
    
    data naikaku;
      infile 'naikaku0611.prn'
        firstobs=2;
      input name $11. posit $ sex $ tochi 
            yotyokin total honnin kasituke kariire
    ;
    proc print data=naikaku(obs=5);
    run;
    proc means data=naikaku;
      var tochi yotyokin total;
    run;
    proc univariate data=naikaku plot;    : 基礎統計量の算出、plot オプション
      var tochi yotyokin total;           : 指定した変量について計算
    run;                                  :
    
    1. 出力結果 : les0601.lst
                                    SAS システム                             1
                                             10:30 Wednesday, November 7, 2007
      
        OBS NAME    POSIT   SEX TOCHI YOTYOKIN TOTAL HONNIN KASITUKE KARIIRE
      
          1 Abe    Kakuryou  M   9760   5030   14790  13990       0       0 
          2 Kan    Kakuryou  M   4767      0    4767   4767       0    2556 
          3 Nagase Kakuryou  M   2175   6750    8925   5649       0    2950 
          4 Aso    Kakuryou  M  41205   7850   49055  42666   18800    1100 
          5 Omi    Kakuryou  M   2788      0    2788   2144     500       0 
      
                                    SAS システム                             2
                                             10:30 Wednesday, November 7, 2007
      
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        TOCHI     69       4751.35       9352.40             0      61046.00
        YOTYOKIN  69       2541.28       5094.07             0      35400.00
        TOTAL     69       7292.65      12135.92             0      67121.00
        --------------------------------------------------------------------
      
                                    SAS システム                             8
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Moments
      
                      N                69  Sum Wgts         69
                      Mean       2541.275  Sum          175348
                      Std Dev    5094.068  Variance   25949534
                      Skewness   4.807677  Kurtosis   27.60495
                      USS        2.2102E9  CSS        1.7646E9
                      CV         200.4532  Std Mean   613.2538
                      T:Mean=0   4.143921  Pr>|T|       0.0001
                      Num ^= 0         55  Num > 0          55
                      M(Sign)        27.5  Pr>=|M|      0.0001
                      Sgn Rank        770  Pr>=|S|      0.0001
      
                                    SAS システム                             9
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=YOTYOKIN
                                  Quantiles(Def=5)
      
                       100% Max     35400       99%     35400
                        75% Q3       3065       95%      7100
                        50% Med       996       90%      6075
                        25% Q1         94       10%         0
                         0% Min         0        5%         0
                                                 1%         0
                       Range        35400                    
                       Q3-Q1         2971                    
                       Mode             0                    
      
                                    SAS システム                            10
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      69)     6750(       3)
                              0(      65)     7100(      52)
                              0(      63)     7850(       4)
                              0(      62)    21144(      21)
                              0(      59)    35400(      33)
      
                                    SAS システム                            11
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=YOTYOKIN
                           Histogram                 #             Boxplot
            37500+*                                  1                *   
                 .                                                        
                 .                                                        
                 .*                                  1                *   
                 .                                                        
                 .                                                        
                 .****                               7                0   
             2500+******************************    60             +--+--+
                  ----+----+----+----+----+----+              
                  * may represent up to 2 counts              
      
                                    SAS システム                            12
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=YOTYOKIN
                                   Normal Probability Plot              
               37500+                                                 * 
                    |                                                   
                    |                                                   
                    |                                             *     
                    |                                                  +
                    |                                        ++++++++++ 
                    |                              +++++++***** *       
                2500+ *   * * ****************************              
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            13
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=TOTAL
                                      Moments
      
                      N                69  Sum Wgts         69
                      Mean       7292.652  Sum          503193
                      Std Dev    12135.92  Variance   1.4728E8
                      Skewness   3.552726  Kurtosis   13.43033
                      USS        1.368E10  CSS        1.002E10
                      CV          166.413  Std Mean   1460.993
                      T:Mean=0   4.991571  Pr>|T|       0.0001
                      Num ^= 0         68  Num > 0          68
                      M(Sign)          34  Pr>=|M|      0.0001
                      Sgn Rank       1173  Pr>=|S|      0.0001
      
                                    SAS システム                            14
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=TOTAL
                                  Quantiles(Def=5)
      
                       100% Max     67121       99%     67121
                        75% Q3       5950       95%     27659
                        50% Med      3249       90%     15540
                        25% Q1       1734       10%       803
                         0% Min         0        5%       200
                                                 1%         0
                       Range        67121                    
                       Q3-Q1         4216                    
                       Mode            10                    
      
                                    SAS システム                            15
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=TOTAL
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      49)    22110(      40)
                             10(      64)    27659(      21)
                             10(      35)    49055(       4)
                            200(      23)    57260(      33)
                            714(      58)    67121(      26)
      
                                    SAS システム                            16
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=TOTAL
         Stem Leaf                                          #          Boxplot
            6 7                                             1             *   
            6                                                                 
            5 7                                             1             *   
            5                                                                 
            4 9                                             1             *   
            4                                                                 
            3                                                                 
            3                                                                 
            2 8                                             1             *   
            2 2                                             1             *   
            1 568                                           3             0   
            1 000114                                        6             0   
            0 55555555666789                               14          +--+--+
            0 00001111111111122222222223333333333344444    41          *-----*
              ----+----+----+----+----+----+----+----+-              
          Multiply Stem.Leaf by 10**+4                               
      
                                    SAS システム                            17
                                             10:30 Wednesday, November 7, 2007
                                Univariate Procedure
      Variable=TOTAL
                                   Normal Probability Plot              
               65000+                                                 * 
                    |                                             *     
                    |                                           *       
               35000+                                            +++++++
                    |                                    ++++**++       
                    |                            +++++++*****           
                5000+ *   *   ***************************               
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    2. 算出統計量の説明 : 分布形状を把握するのに利用
      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる(99.7%)。
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Minimum & Maximum : 最小値(Min)と最大値(Max)
      • Quantiles : 四分位数
        下位から、0%点(Q0、最小値)、25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)、100%点(Q4 最大値)
      • 範囲(Range) : 最大値(Max)-最小値(Min)
      • 四分偏差 : Q3-Q1
      • Mode : 最頻値(SAS では、複数の最頻値がある場合はその中の最小値が表示される)
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        時刻表にも似ている
      • Histogram : 度数分布。頻度が少ない場合は、樹葉図が描かれる

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端、中央線、上端は、それぞれ 25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)。
        プラス(+) は平均値。* は最頻値。
        髭 : 箱からの距離が、
        1.5x[四分偏差] の範囲内にあるサンプルまで伸ばされる。
        髭の外側にサンプルがある場合、
        0(3.0x[四分偏差] の範囲内) や
        *(それより外側) で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        分布が正規分布かどうかを確かめる
        + が基準線、* が対象データ。ずれていると正規性が疑われる。

    3. [Lesson 6-2] Stem and Leaf や Histogram 上における各統計量の位置を確認せよ。

    4. 知見 : 解析によって判ったこと & 解ったこと
      • 内閣の閣僚資産データにおける「総資産」について観てみると、
        • 公開した閣僚は 69名である。
        • 0万円から 67121万円の間に散らばっており、幅は 67121万円である。
        • 四分位偏差でみると 4216万円である。
        • 平均値は 7293万円、中央値は 3249万円、最頻値は 10万円である。
        • 頻度分布を見ると少額の方に大幅に偏っていることが判る。
        • そのことは箱髭図からも判る。
        • (総資産の分布は正規分布からはかけ離れていると言える。)

        • Mode(最頻値) の表示は少し注意が必要 (SAS の場合)

      [参考1] 上記の箱髭図は潰れていて理解し難い部分もあるので、別の例として、皆さんの身長のデータを図に表わしたものを以下に示す。

                                Univariate Procedure
      Variable=SHINTYOU
                           Histogram                   #             Boxplot
          187.5+*                                      3                |
               .*******                               21                |
               .******************                    54                |
               .**********************************   100             +-----+
          167.5+************************              71             *--+--*
               .*******************                   55             +-----+
               .*************                         38                |
               .******                                18                |
          147.5+**                                     6                |
                ----+----+----+----+----+----+----
                * may represent up to 3 counts
      
      [参考2] 例えば 1000万円の単位に四捨五入して最頻値を調べる方法もある。 そのためには「round」と言う関数を用いればよい。 このようにして求めた最頻値は 1000万円であった。
      • プログラム例(以下は部分) : les0601round.sas、 出力結果 : les0601round.lst
        data naikaku;
          infile 'naikaku0611.prn'
            firstobs=2;
          input name $10. posit $ sex $ tochi 
                yotyokin total honnin kasituke kariire
        ;
        tot1000=round(total,1000);
        

  2. 「平均」とは? : 中間? 真ん中? 代表値? 大体の目安? ...

    貯蓄現在高 階級別世帯分布 (二人以上の世帯)
    グラフ 貯蓄現在高回級別世帯分布(二人以上の世帯) H18

    分布形状と統計量

  3. 過去 16回の学生のアンケートデータ(all07b.prn)

  4. [おさらい] 漢字コードの取り扱いとデータ転送 : 前回 の6節、 前々回 の4節

  5. [おさらい] 計算結果を利用した報告書の作成手順 : 前回 の 5節
     報告書(レポート)を作成するような場合、いちいち書き移すようなことはせず、 SAS の「計算結果(Output エリアの内容)」を流用すると 簡単でかつ間違いが減り好都合である。 そのためには、「計算結果」をファイルに保存(file コマンド)後、 漢字コードの変換を行ない(nkf)、そして Windows マシンに転送して(WinSCP)、編集するのが良いであろう。
     ただし、報告書には計算結果は全部を引用するのではなく、 必要部分だけを切り出し、それぞれに説明を付与する事によって完成するのが、 受け取った人に無駄な労力を払わせずに好印象を持たれると思う。
     なお、UNIX マシン上で報告書を作成することも不可能ではないが、 日本語の入力方法の問題や、プリンタが接続されていない事等があるので、 現実的には教室の Windows マシン(や個人所有のパソコン)で 処理することをお奨めする。

    1. データの電子化とstat システム側への転送
    2. プログラムの作成、デバッグ ===> 完成
    3. 解析結果の保存 : Outputエリアの内容をファイルに保存
      1. プログラムを実行(SUBmit)する前に、 Outputエリアの過去の記録を消去しておく。 この処理をしておかないと、過去の全ての(不要な、多大な)記録が 全部保存されてしまう : [入力] clear
      2. プログラムを実行 : [入力] SUBmit
      3. 出力結果の保存 : Outputエリアのコマンド行で : [入力例] file 'les0699.lst'
        プログラムの保存と同じコマンドだが、保存対象が異なる。
    4. SAS を終了 : [入力] bye
    5. UNIX 上で漢字コードの変換(nkf)。-s オプションは「Shift-JIS」への変換を 指示しているもの : [入力例] nkf -s les0699.lst > les0699s.lst
    6. 保存した解析結果を Windows 側に転送(WinSCP)。
    7. ワープロやエディタを使って、報告書を作成。 出力の必要部分だけを切り出して、報告書に引用する。 その際に、有効桁数等には注意して利用せよ。
    8. (本講義では) 紙に印刷するか、電子メール(メール本文に挿入。添付ファイルは避ける)で提出。

  6. [レポート提出] : これまでの講義で紹介した SAS の手法(プロシジャー)を利用して、 統計解析を行ってみよ。解析結果だけでなく、データ自身の説明や、 どういうところに興味を持って対象に選んだかの理由等も報告する事。考察も大事。
    1. 対象データ : 以下の 1〜3 の中から 最低、2つ。
      1. 皆さんから収集したアンケートデータ(all07b.prn)
      2. 各自で収集した興味あるデータ(個人ごとに異なる) : 複数あるかも
      3. 内閣の閣僚資産データ(naikaku0611.prn)
      4. その他

    2. 提出期限 : 11月26日(月) 15:00 まで : 電子メールかワープロ(or エディタ)で。手書きは不可。

      注意1: 電子メールでの場合は、添付ファイルは使わないこと。 提出用メールアドレスは「hayashi@peter.rd.dnc.ac.jp」である。 また、提出日時はメールヘッダーから判断する。私からは受領確認メールを出すので、それを受け取った段階で提出作業完了とする。
      注意2: 紙で提出する場合は、事務所の受付終了時刻に注意すること。提出日は事務室の受領印で判断する。
      注意3: 連絡ページ に受領した者の学籍番号を掲載するので、確認に使ってほしい。

    3. 作業内容 : 以下の点に注意しながらレポートを作成しよう。
      1. 解析対象とするデータの数は、最低 2つであるが上限は設けない。 1つだけではダメ
      2. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って 解析対象に選んだかの理由等も報告する事。 加えて、特に得られた知見からの考察は大事。
      3. レポートは他人への、もの事の説明のための文書である!!
      4. 手入力を少なくして SAS の出力を最大限有効利用せよ。 しかし、不要な部分はカットせよ。だらだらと引用しないこと。
      5. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    4. 必要事項 : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • 使ったデータ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

      • 講義の進め方や内容等について、感想や意見も。

  7. 次回は、... : 11月14日 13:10
[DIR]講義のホームページへ戻ります