分布特性の把握

コンピュータ応用 D クラス : 第8回目(06/12/97)

前々回、SAS のプログラミングについて一番簡単なところを紹介した。 また、データをファイルから読み込んだり、出力をファイルに保存することによって、 電子情報を有効に活用する方法も、実習を通して修得したと思う。
今回は、データがどのような特性を持っているかを把握する指標について紹介する。
  1. レポート提出を受けての感想

    1. 電子メールでレポートを提出した場合、 受け取ったことの確認メールを発行しているので、 届いているかどうかを判断してほしい。
    2. 電子メールで質問し、それに対する回答をもらった者は、 その説明で理解できたかどうかを知らせてほしい。
    3. 自分の出したメールを必ず確認しよう。 Cc: フィールド(Carbon Copy)の活用。自分に Cc することによって、 文字化けや送信ミスが防げる。: 「PC・ネットワーク利用ガイド」の111ページ参照。
    4. その他、電子メールの使い方も要修得。出力の貼込み等。
    5. この段階で、既にある程度の進度の違いを感じました。 人より遅れていると自覚がある者は、復習するなり質問するなりと言った 努力をお願いします。

    6. プログラムの「目的と内容」を理解・修得して帰ってくださいね。
      困った例 :
      • 配布資料のプログラムを打ち込んで実行したら、何か知らんけど結果が出た。
      • プログラムを入力することに疲れて、何の説明を聞いたか覚えてない。
      • プログラムと出力結果の関係が解らない。
      • :

  2. 分布特性の把握とそれに役立つ統計量

    Lesson 8-1: 皆さんの小遣いに関するデータ (kodukai.dat) をファイルから読み込んで小遣い額の平均と基礎統計量を求めてみよう。 なお、ファイル名は各自で命名したものを指定せよ。 ここでは「kodukai.dat」という名前で説明する。

    1. プログラム : univ01.sas
       /* Lesson 8-1 */
       /*    File Name = univ01.sas   06/12/97   */
      
      data kodukai;                             : データ名の定義
        infile 'kodukai.dat';                   : ファイル名の指定
        input seibetsu $ jitaku $ kodukai;      : 変量名、型
                                                :
      proc print data=kodukai(obs=10);          : データの表示
      run;                                      :
      proc means data=kodukai;                  : 平均、標準偏差、最大最小値の算出
      run;                                      :
      proc univariate data=kodukai plot;        : 基礎統計量の算出、plot オプション
      run;                                      :
      

    2. 出力結果 : univ01.out
                                SAS システム                               86
                                               21:46 Wednesday, June 11, 1997
      
                     OBS    SEIBETSU    JITAKU    KODUKAI
      
                      1       M                        .
                      2       M                        .
                      3       M                    30000
                      4       M          G             0
                      5       M          G        100000
                      6       M          G        120000
                      7       M          G             .
                      8       M          G        150000
                      9       M          G        163000
                     10       M          G         50000
                                SAS システム                               87
                                               21:46 Wednesday, June 11, 1997
      
         Analysis Variable : KODUKAI
      
      
          N          Mean       Std Dev       Minimum       Maximum
         ----------------------------------------------------------
         35      56757.14      53071.31             0     163000.00
         ----------------------------------------------------------
                                SAS システム                               88
                                               21:46 Wednesday, June 11, 1997
      
                            Univariate Procedure
      
      Variable=KODUKAI
      
                                  Moments
      
                  N                35  Sum Wgts         35
                  Mean       56757.14  Sum         1986500
                  Std Dev    53071.31  Variance   2.8166E9
                  Skewness   0.819528  Kurtosis   -0.80521
                  USS        2.085E11  CSS        9.576E10
                  CV         93.50596  Std Mean   8970.689
                  T:Mean=0   6.326955  Pr>|T|       0.0001
                  Num ^= 0         30  Num > 0          30
                  M(Sign)          15  Pr>=|M|      0.0001
                  Sgn Rank      232.5  Pr>=|S|      0.0001
      
                                SAS システム                               89
                                               21:46 Wednesday, June 11, 1997
      
                            Univariate Procedure
      
      Variable=KODUKAI
      
                             Quantiles(Def=5)
      
                   100% Max    163000       99%    163000
                    75% Q3     100000       95%    150000
                    50% Med     30000       90%    150000
                    25% Q1      20000       10%         0
                     0% Min         0        5%         0
                                             1%         0
                   Range       163000
                   Q3-Q1        80000
                   Mode         20000
      
      
                                SAS システム                               90
                                               21:46 Wednesday, June 11, 1997
      
                            Univariate Procedure
      
      Variable=KODUKAI
      
                                 Extremes
      
                      Lowest    Obs     Highest    Obs
                          0(      39)   150000(       8)
                          0(      38)   150000(      11)
                          0(      35)   150000(      13)
                          0(      24)   150000(      18)
                          0(       4)   163000(       9)
      
      
                                SAS システム                               91
                                               21:46 Wednesday, June 11, 1997
      
                            Univariate Procedure
      
      Variable=KODUKAI
      
                          Missing Value         .
                          Count                 6
                          % Count/Nobs      14.63
      
      
                                SAS システム                               92
                                               21:46 Wednesday, June 11, 1997
      
                            Univariate Procedure
      
      Variable=KODUKAI
      
              Stem Leaf                     #             Boxplot
                16 3                        1                |
                14 0000                     4                |
                12 00                       2                |
                10 0000                     4             +-----+
                 8                                        |     |
                 6 00                       2             |     |
                 4 40                       2             |  +  |
                 2 00000005000000          14             *-----*
                 0 000005                   6                |
                   ----+----+----+----+
               Multiply Stem.Leaf by 10**+4
      
                               SAS システム                               93
                                              21:46 Wednesday, June 11, 1997
      
                            Univariate Procedure
      
      Variable=KODUKAI
      
                              Normal Probability Plot
          170000+                                             +*++
                |                                    * ** +*++
                |                                  ** ++++
                |                              ****+++
           90000+                              ++++
                |                          +++*
                |                      ++++ **
                |                ********* *
           10000+    *   *  ** **+++
                +----+----+----+----+----+----+----+----+----+----+
                    -2        -1         0        +1        +2
      

    3. 算出統計量の説明 : 分布形状を把握するのに利用

      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる
      • Minimum & Maximum : 最小値と最大値
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Quantiles : 四分位数
        上位から、0%目(Q0、最小値)、25%目(Q1)、50%目(Q2、
        Median、中央値)、75%目(Q3)、100%目(Q4 最大値)
      • Mode : 最頻値
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端と上端は、25%点と75%点。プラスは平均値。* は最頻値。
        髭 : 下端と上端は、平均値からのずれ。
        髭の外側にある点があれば、それらを 0 や * で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        分布が正規分布かどうかを確かめる

  3. 分布形状を見るには : 平均や基礎統計量から知れる情報とのマッチング

    1. プログラム : chart01.sas
       /* Lesson 8-2 */
       /*    File Name = chart01.sas   06/12/97   */
      
      data kodukai;
        infile 'kodukai.dat';
        input seibetsu $ jitaku $ kodukai;
      
      proc print data=kodukai(obs=10);
      run;                                      :
      proc chart data=kodukai;                  : 図示
        hbar kodukai;                           : 水平棒グラフで
      run;                                      :
      proc chart data=kodukai;                  : 図示
        vbar kodukai;                           : 垂直棒グラフで
      run;                                      :
      

    2. 出力結果 : chart01.out
                                 SAS システム                               94
                                                21:46 Wednesday, June 11, 1997
      
      KODUKAI                                            Cum.              Cum.
      Midpoint                                     Freq  Freq  Percent  Percent
                |
            0   |**********                           5     5    14.29    14.29
        30000   |********************************    16    21    45.71    60.00
        60000   |******                               3    24     8.57    68.57
        90000   |********                             4    28    11.43    80.00
       120000   |****                                 2    30     5.71    85.71
       150000   |**********                           5    35    14.29   100.00
                |
                ----+---+---+---+---+---+---+---+
                    2   4   6   8   10  12  14  16
      
                            Frequency
                                 SAS システム                               95
                                                21:46 Wednesday, June 11, 1997
      
      Frequency
      
      16 +                 *****
         |                 *****
      12 +                 *****
         |                 *****
       8 +                 *****
         |      *****      *****                                       *****
       4 +      *****      *****      *****      *****                 *****
         |      *****      *****      *****      *****      *****      *****
         -----------------------------------------------------------------------
                  0        30000      60000      90000     120000     150000
      
                                      KODUKAI Midpoint
      

  4. 先週の残り : 「5. 性別ごとの分析」

    グループを属性に沿ったサブグループに分解して個々について調べてみる。

    1. プログラム : Lesson 6-4 : プログラム : anke04.sas
    2. 出力結果 : anke04.out : 男性と女性では身長や体重の平均に違いがあるのを確認せよ。

      [テクニック] 層を分けて分析する場合は、事前に並べ替えが必要

  5. 分布の把握について : 気をつける点

  6. 宿題

    以前、電子化してもらったデータを今回の演習例を参考に解析してみよ。

    1. 今までに収集したデータ(J:\センター設置科目\コンピュータ応用D\all.dat)
      アンケートデータを集積したもの。6変量、274ケース。
    2. [Option] 連休中に収集してもらった興味あるデータ(個人ごとに異なるはず)
      他にも新たに収集しておいてくれるとありがたい

    3. レポート提出 : 6月19日 14:45 までに : 電子メールかワープロで。
    4. 解析結果だけでなく、データ自身の説明やどういうところに興味を持って対象に選んだかの理由等も報告する事。考察も大事。単なる出力の提出は不可。

  7. 次回は、...
[DIR]講義のホームページへ戻ります