先週の続きと、基礎統計量

統計解析 02 クラス : 第04回 (05/12/05)

 今回はまず 前回 の残りを説明した後、 当該変量の性質や分布形状を把握する上で有用な基礎統計量について紹介する。
  1. 基礎統計量 : 性質や分布特性の把握に役立つ統計量
     内閣の閣僚資産データを対象に算出してみよう。
    1. プログラム : les0401.sas : les0306.sas を活用してもよい
     /* Lesson 4-01 */
     /*    File Name = les0401.sas   05/12/05   */
    
    data naikaku;
      infile 'naikaku0310.prn'
        firstobs=2;
      input name $10. posit $ sex $ tochi 
            yotyokin total honnin kasituke kariire
    ;
    proc print data=naikaku(obs=5);
    run;
    proc means data=naikaku;
      var tochi yotyokin total;
    run;
    proc univariate data=naikaku plot;    : 基礎統計量の算出、plot オプション
      var tochi yotyokin total;           : 指定した変量について計算
    run;                                  :
    
    1. 出力結果 : les0401.lst
                                    SAS システム                             1
                                                  08:22 Thursday, May 12, 2005
      
      OBS NAME       POSIT   SEX TOCHI YOTYOKIN TOTAL HONNIN KASITUKE KARIIRE
      
        1 Koizumi   Kakuryou  M  10743    2360  13103  13103       0       0 
        2 Aso       Kakuryou  M  37772    7750  45522  40273   20100    2000 
        3 Nozawa    Kakuryou  M   2315    2114   4429   2912       0       0 
        4 Kawaguchi Kakuryou  F   2266   14330  16596  11344       0       0 
        5 Kawamura  Kakuryou  M   6268    2228   8496   5872       0    1000 
      
                                    SAS システム                             2
                                                  08:22 Thursday, May 12, 2005
        Variable   N          Mean       Std Dev       Minimum       Maximum
        --------------------------------------------------------------------
        TOCHI     60       4077.17       6398.74             0      37772.00
        YOTYOKIN  60       1684.12       2530.42             0      14330.00
        TOTAL     60       5761.28       7444.75             0      45522.00
        --------------------------------------------------------------------
      <<< 中略 >>>
                                    SAS システム                             8
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Moments
      
                      N                60  Sum Wgts         60
                      Mean       1684.117  Sum          101047
                      Std Dev    2530.423  Variance    6403038
                      Skewness   2.913734  Kurtosis   10.58346
                      USS        5.4795E8  CSS        3.7778E8
                      CV         150.2522  Std Mean   326.6761
                      T:Mean=0    5.15531  Pr>|T|       0.0001
                      Num ^= 0         53  Num > 0          53
                      M(Sign)        26.5  Pr>=|M|      0.0001
                      Sgn Rank      715.5  Pr>=|S|      0.0001
      
                                    SAS システム                             9
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=YOTYOKIN
                                  Quantiles(Def=5)
      
                       100% Max     14330       99%     14330
                        75% Q3       1957       95%      6794
                        50% Med     690.5       90%      4805
                        25% Q1        275       10%         0
                         0% Min         0        5%         0
                                                 1%         0
                       Range        14330                    
                       Q3-Q1         1682                    
                       Mode             0                    
      
                                    SAS システム                            10
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=YOTYOKIN
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      57)     5254(      11)
                              0(      42)     5838(      31)
                              0(      39)     7750(       2)
                              0(      37)     8548(      17)
                              0(      35)    14330(       4)
      
                                    SAS システム                            11
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=YOTYOKIN
         Stem Leaf                                              #      Boxplot
           14 3                                                 1         *   
           12                                                                 
           10                                                                 
            8 5                                                 1         *   
            6 8                                                 1         *   
            4 138838                                            6         0   
            2 122494                                            6      +-----+
            0 000000001112222334444555666667778899903556668    45      *--+--*
              ----+----+----+----+----+----+----+----+----+              
          Multiply Stem.Leaf by 10**+3                                   
      
                                    SAS システム                            12
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=YOTYOKIN
                                   Normal Probability Plot              
               15000+                                                *  
                    |                                                   
                    |                                                   
                    |                                            *     +
                    |                                          *+++++++ 
                    |                                   +****+*+        
                    |                           +++++****               
                1000+  *   * ** **** ****************                   
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
                                    SAS システム                            13
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=TOTAL
                                      Moments
      
                      N                60  Sum Wgts         60
                      Mean       5761.283  Sum          345677
                      Std Dev    7444.749  Variance   55424294
                      Skewness   3.595012  Kurtosis   15.27878
                      USS        5.2616E9  CSS          3.27E9
                      CV         129.2203  Std Mean    961.113
                      T:Mean=0   5.994387  Pr>|T|       0.0001
                      Num ^= 0         59  Num > 0          59
                      M(Sign)        29.5  Pr>=|M|      0.0001
                      Sgn Rank        885  Pr>=|S|      0.0001
      
                                    SAS システム                            14
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=TOTAL
                                  Quantiles(Def=5)
      
                       100% Max     45522       99%     45522
                        75% Q3     6751.5       95%   21295.5
                        50% Med      3911       90%    9603.5
                        25% Q1       1794       10%    1095.5
                         0% Min         0        5%     646.5
                                                 1%         0
                       Range        45522                    
                       Q3-Q1       4957.5                    
                       Mode             0                    
      
                                    SAS システム                            15
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=TOTAL
                                      Extremes
      
                         Lowest    Obs     Highest    Obs
                              0(      33)    13103(       1)
                            183(      27)    16596(       4)
                            526(      24)    25995(      48)
                            767(      58)    29640(      38)
                            930(      54)    45522(       2)
      
                                    SAS システム                            16
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=TOTAL
                           Histogram               #             Boxplot
             45000+*                               1                *   
                  .                                                     
             25000+*                               2                *   
                  .**                              3                0   
              5000+***************************    54             +--+--+
                   ----+----+----+----+----+--              
                   * may represent up to 2 counts           
      
                                    SAS システム                            17
                                                  08:22 Thursday, May 12, 2005
                                Univariate Procedure
      Variable=TOTAL
                                   Normal Probability Plot              
               45000+                                                *  
                    |                                                   
               25000+                                          * *++++++
                    |                               +++++++**+*+++      
                5000+  *   * ** ***************************             
                     +----+----+----+----+----+----+----+----+----+----+
                         -2        -1         0        +1        +2     
      
    2. 算出統計量の説明 : 分布形状を把握するのに利用
      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる(99.7%)。
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Minimum & Maximum : 最小値(Min)と最大値(Max)
      • Quantiles : 四分位数
        下位から、0%点(Q0、最小値)、25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)、100%点(Q4 最大値)
      • 範囲(Range) : 最大値(Max)-最小値(Min)
      • 四分偏差 : Q3-Q1
      • Mode : 最頻値(SAS では、複数のモードがある場合はその中の最小値が表示される)
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        時刻表にも似ている
      • Histogram : 度数分布。頻度が少ない場合は、樹葉図が描かれる

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端、中央線、上端は、それぞれ 25%点(Q1)、
        50%点(Q2、Median、中央値、中位数)、75%点(Q3)。
        プラス(+) は平均値。* は最頻値。
        髭 : 箱からの距離が、
        1.5x[四分偏差] の範囲内にあるサンプルまで伸ばされる。
        髭の外側にサンプルがある場合、
        0(3.0x[四分偏差] の範囲内) や
        *(それより外側) で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        分布が正規分布かどうかを確かめる
        + が基準線、* が対象データ。ずれていると正規性が疑われる。

    3. [演習] Stem and Leaf や Histogram 上における各統計量の位置を確認せよ。

    4. 知見 : 解析によって判ったこと & 解ったこと
      • 内閣の閣僚資産データにおける「総資産」について観てみると、
        • 公開した閣僚は 60名である。
        • 0万円から 45500万円の間に散らばっており、幅は 45500万円である。
        • 四分位偏差でみると 4960万円である。
        • 平均値は 5760万円、中央値は 3910万円、最頻値は 0万円である。
        • 頻度分布を見ると少額の方に大幅に偏っていることが判る。
        • そのことは箱髭図からも判る。
        • 総資産の分布は正規分布からはかけ離れていると言える。

        • Mode(最頻値) の表示は少し注意が必要 (SAS の場合)

      [参考] 例えば 1000万円の単位に四捨五入して最頻値を調べる方法もある。 そのためには「round」と言う関数を用いればよい。 このようにして求めた最頻値は 2000万円であった。

      1. プログラム例(以下は部分) : les0401round.sas
        tot1000=round(total,1000);
        
      2. 出力結果 : les0401round.lst

  2. 「平均」とは? : 中間? 真ん中? 代表値? 大体の目安? ...

    貯蓄現在高 階級別世帯分布 (全世帯) グラフ 貯蓄現在高回級別世帯分布(全世帯) H16

    分布形状と統計量

  3. 計算結果を利用した報告書の作成手順
     報告書を作成するような場合、いちいち書き移すようなことはせず、 SAS の「計算結果(Output エリアの内容)」を流用すると 簡単でかつ間違いが減り好都合である。 そのためには、「計算結果」をファイルに保存(file コマンド)後、 漢字コードの変換を行ない(nkf)、そして Windows マシンに転送して(WinSCP)、編集するのが良いであろう。
     ただし、報告書には計算結果は全部を引用するのではなく、 必要部分だけを切り出し、それぞれに説明を付与する事によって完成するのが、 受け取った人に無駄な労力を払わせずに好印象を持たれると思う。
     なお、UNIX マシン上で報告書を作成することも不可能ではないが、 日本語の入力方法の問題や、プリンタが接続されていない事等があるので、 現実的には教室の Windows マシン(や個人所有のパソコン)で 処理することをお奨めする。

    1. プログラムの作成、デバッグ ===> 完成
    2. 解析結果の保存 : Outputエリアの内容をファイルに保存
      1. プログラムを実行(SUBmit)する前に、 Outputエリアの過去の記録を消去しておく。 この処理をしておかないと、過去の全ての(不要な、多大な)記録が 全部保存されてしまう : [入力] clear
      2. プログラムを実行 : [入力] SUBmit
      3. 出力結果の保存 : Outputエリアのコマンド行で : [入力例] file 'les0499.lst'
        プログラムの保存と同じコマンドだが、保存対象が異なる。
    3. SAS を終了 : [入力] bye
    4. UNIX 上で漢字コードの変換(nkf)。-s オプションは「Shift-JIS」への変換を 指示しているもの : [入力例] nkf -s les0499.lst > les0499s.lst
    5. 保存した解析結果を Windows 側に転送(WinSCP)。
    6. ワープロやエディタを使って、報告書を作成。 出力の必要部分だけを切り出して、報告書に引用する。 その際に、有効桁数等には注意して利用せよ。
    7. (本講義では) 紙に印刷するか、電子メール(メール本文に挿入。添付ファイルは避ける)で提出。

  4. 次回は、... : 05月19日 14:45

  5. [おまけ] 学外から stat システムへのアクセス方法
     [参照] 自宅からstatシステムへ接続する : WASEDA UNIVERSITY statシステム
[DIR]講義のホームページへ戻ります