頻度集計、ヒストグラム、基礎統計量、分析結果のダウンロード、グループ分け

統計モデル解析特論I/II : 第11回 (12/17/19)

  今回は統計処理をする場合に手始めに行うべき処理としての幾つかの方法を 理解してもらうと共に、出力結果の利用方法を紹介する。 加えて、グループごとの集計方法を習得する。
  1. 前回のプログラム例に含めたprocedure(処理コマンド)

  2. 手始めの集計 : 各変量の性質や分布特性の把握に役立つ統計量
     ドラゴンズの選手データを対象に算出してみよう。前回入力・実行したもの。
    1. プログラム : les1001.sas
       /* Lesson 10-01 */
       /*    File Name = les1001.sas  12/10/19   */
      
      options nocenter linesize=78 pagesize=30;             : 画面出力サイズ指定
      options locale='en_US';                               : 出力を英字表記にする
      proc printto print = 'Kougi19/les1001-Results.txt' new; : 計算結果を直接ファイル出力
      
      data dragons;
        infile 'Kougi19/Dragons19.csv'
          firstobs=6 dlm=',' dsd missover                   : 入力ファイルの記述特性
          encoding=sjis termstr=crlf;
        input No $ Name : $24. Pos $ DoBY DoBM DoBD         : 読み込む変数(項目)のリスト
              shintyou taijyuu tou $ da $ bikou $;          : 複数行にわたって
      
      proc print data=dragons(obs=10);          : 先頭10ケースを表示
      run;
      proc means data=dragons;                  : 平均値等を算出
      run;
      proc freq data=dragons;                   : 頻度を算出。個々&クロス集計
        table DoBY DoBM tou da tou*da;
      run;
      
      proc chart data=dragons;                  : ヒストグラムを描く
        hbar shintyou;                          : 水平棒グラフ。変量を指定(複数指定も可)。
        vbar shintyou;                          : 垂直棒グラフ。変量を指定(複数指定も可)。
        hbar DoBY;
        vbar DoBY;
      run;
      
      proc univariate data=dragons plot;        : 基礎統計量の算出。plot オプションを指定。
        var shintyou;                           : 指定した変量について
      run;
      
      ods listing;                              : グラフをキャラクタープロットで出力する場合
      ods graphics off;                         :
      proc univariate data=dragons plot;
        var shintyou;
      run;
      

    2. 計算結果の保存
      • [結果タグ]に表示されている計算結果をhtml(左端のアイコン)やPDF(左から2番目のアイコン)に保存する。なお、「proc printto print」で指定した出力(テキストファイル形式)は指定したファイルに保存されている。

    3. 出力
      • html 形式: les1001-Results.html
      • pdf 形式: les1001-Results.pdf
      • [結果タグ]の印刷出力 pdf 形式: les1001-Output.pdf
      • テキストファイル: les1001-Results.txt. : 漢字コードがUTF-8で記述されているため、(ブラウザに依るが)そのままだと文字化けする。 このような場合は、複数の漢字コードに対応したエディタ(例: 秀丸エディタ (シェアウェア))で漢字コードを UTF-8 に指定してやると化けずに表示される。

      • [補足] テキストファイル形式で保存された計算結果には、一部で文字位置のズレが発生している。 これはデータに漢字が使われている場合に、SASシステムが漢字コードを うまくハンドリングできていないからで、 データが半角文字(英数字)のみの出力については問題ない (勿論計算結果についてはどちらの場合も問題ない。表示の問題だから)。 ズレが気になるようなら、上述の html形式かpdf形式の出力を使えば良いのだが、 テキストファイルに比べて切り出し等が面倒なので、 悩ましいところである。
                                           Friday, December  6, 2019 06:37:26 PM 330
                                                            s
                                                            h    t
                                                            i    a
                                                            n    i            b
                        N                      D    D   D   t    j            i
       O                a              P       o    o   o   y    y   t        k
       b  N             m              o       B    B   B   o    u   o    d   o
       s  o             e              s       Y    M   D   u    u   u    a   u
      
       1  92  与田 剛           監督  1965  12   4    .   .             
       2  11  小笠原 慎之介  投手  1997  10   8  180  95  左  左   
       3  12  田島 慎二        投手  1989  12  21  181  84  右  右   
       4  14  谷元 圭介        投手  1985   1  28  167  72  右  右   
       5  16  又吉 克樹        投手  1990  11   4  181  74  右  右   
       6  17  柳 裕也           投手  1994   4  22  180  85  右  右   
       7  18  松坂 大輔        投手  1980   9  13  183  93  右  右   
       8  19  吉見 一起        投手  1984   9  19  182  90  右  右   
       9  21  岡田 俊哉        投手  1991  12   5  178  67  左  左   
      10  22  大野 雄大        投手  1988   9  26  183  83  左  左   
      
                                           Friday, December  6, 2019 06:37:26 PM 331
      The MEANS Procedure
      
      Variable     N            Mean         Std Dev         Minimum         Maximum
      ------------------------------------------------------------------------------
      DoBY        77         1991.58       5.6483594         1965.00         2000.00
      DoBM        77       6.6363636       3.4447103       1.0000000      12.0000000
      DoBD        77      14.5714286       7.8378780       1.0000000      31.0000000
      shintyou    76     181.0921053       5.5908917     167.0000000     201.0000000
      taijyuu     76      84.7894737       8.5421555      65.0000000     117.0000000
      ------------------------------------------------------------------------------
      
                                           Friday, December  6, 2019 06:37:26 PM 332
      The FREQ Procedure
                                       Cumulative    Cumulative
      DoBY    Frequency     Percent     Frequency      Percent
      ---------------------------------------------------------
      1965           1        1.30             1         1.30  
      1978           1        1.30             2         2.60  
      1980           1        1.30             3         3.90  
      1981           1        1.30             4         5.19  
      1984           2        2.60             6         7.79  
      1985           2        2.60             8        10.39  
      1987           4        5.19            12        15.58  
      1988           5        6.49            17        22.08  
      1989           6        7.79            23        29.87  
      1990           4        5.19            27        35.06  
      1991          10       12.99            37        48.05  
      1992           7        9.09            44        57.14  
      1993           4        5.19            48        62.34  
      1994           7        9.09            55        71.43  
      1995           4        5.19            59        76.62  
      1996           5        6.49            64        83.12  
      1997           3        3.90            67        87.01  
      1998           2        2.60            69        89.61  
      1999           3        3.90            72        93.51  
      2000           5        6.49            77       100.00  
      
                                           Friday, December  6, 2019 06:37:26 PM 333
      The FREQ Procedure
                                       Cumulative    Cumulative
      DoBM    Frequency     Percent     Frequency      Percent
      ---------------------------------------------------------
         1           7        9.09             7         9.09  
         2           4        5.19            11        14.29  
         3           5        6.49            16        20.78  
         4           7        9.09            23        29.87  
         5           9       11.69            32        41.56  
         6           6        7.79            38        49.35  
         7           8       10.39            46        59.74  
         8           5        6.49            51        66.23  
         9           5        6.49            56        72.73  
        10           7        9.09            63        81.82  
        11           7        9.09            70        90.91  
        12           7        9.09            77       100.00  
      
                                           Friday, December  6, 2019 06:37:26 PM 334
      The FREQ Procedure
                                      Cumulative    Cumulative
      tou    Frequency     Percent     Frequency      Percent
      --------------------------------------------------------
      右          63       82.89            63        82.89  
      左          13       17.11            76       100.00  
      
                       Frequency Missing = 1
      
                                         Cumulative    Cumulative
      da        Frequency     Percent     Frequency      Percent
      -----------------------------------------------------------
      右             44       57.89            44        57.89  
      左             29       38.16            73        96.05  
      左右           3        3.95            76       100.00  
      
                         Frequency Missing = 1
      
                                           Friday, December  6, 2019 06:37:26 PM 335
      The FREQ Procedure
      Table of tou by da
      
      tou       da
      
      Frequency|
      Percent  |
      Row Pct  |
      Col Pct  |右     |左     |左右  |  Total
      ---------+--------+--------+--------+
      右      |     43 |     17 |      3 |     63
               |  56.58 |  22.37 |   3.95 |  82.89
               |  68.25 |  26.98 |   4.76 |
               |  97.73 |  58.62 | 100.00 |
      ---------+--------+--------+--------+
      左      |      1 |     12 |      0 |     13
               |   1.32 |  15.79 |   0.00 |  17.11
               |   7.69 |  92.31 |   0.00 |
               |   2.27 |  41.38 |   0.00 |
      ---------+--------+--------+--------+
      Total          44       29        3       76
                  57.89    38.16     3.95   100.00
      
      Frequency Missing = 1
      
                                           Friday, December  6, 2019 06:37:26 PM 336
      shintyou                                         Cum.              Cum.
      Midpoint                                   Freq  Freq  Percent  Percent
                 |
         167.5   |**                                2     2     2.63     2.63
                 |
         172.5   |******                            6     8     7.89    10.53
                 |
         177.5   |*********************            21    29    27.63    38.16
                 |
         182.5   |*****************************    29    58    38.16    76.32
                 |
         187.5   |************                     12    70    15.79    92.11
                 |
         192.5   |*****                             5    75     6.58    98.68
                 |
         197.5   |                                  0    75     0.00    98.68
                 |
         202.5   |*                                 1    76     1.32   100.00
                 |
                 -----+----+----+----+----+----
                      5    10   15   20   25
                            Frequency
      
                                           Friday, December  6, 2019 06:37:26 PM 337
      Frequency
      30 +                           *****
         |                           *****
         |                           *****
         |                           *****
         |                   *****   *****
      20 +                   *****   *****
         |                   *****   *****
         |                   *****   *****
         |                   *****   *****
         |                   *****   *****   *****
      10 +                   *****   *****   *****
         |                   *****   *****   *****
         |           *****   *****   *****   *****   *****
         |           *****   *****   *****   *****   *****
         |   *****   *****   *****   *****   *****   *****           *****
         --------------------------------------------------------------------
             167.5   172.5   177.5   182.5   187.5   192.5   197.5   202.5
                                   shintyou Midpoint
      
                                           Friday, December  6, 2019 06:37:26 PM 338
      DoBY                                            Cum.              Cum.
      Midpoint                                  Freq  Freq  Percent  Percent
             |
      1965   |*                                    1     1     1.30     1.30
             |
      1970   |                                     0     1     0.00     1.30
             |
      1975   |                                     0     1     0.00     1.30
             |
      1980   |***                                  3     4     3.90     5.19
             |
      1985   |********                             8    12    10.39    15.58
             |
      1990   |********************************    32    44    41.56    57.14
             |
      1995   |***********************             23    67    29.87    87.01
             |
      2000   |**********                          10    77    12.99   100.00
             |
             -----+----+----+----+----+----+--
                  5    10   15   20   25   30
                         Frequency
      
                                           Friday, December  6, 2019 06:37:26 PM 339
      Frequency
         |                                           *****
      30 +                                           *****
         |                                           *****
         |                                           *****
         |                                           *****   *****
         |                                           *****   *****
      20 +                                           *****   *****
         |                                           *****   *****
         |                                           *****   *****
         |                                           *****   *****
         |                                           *****   *****
      10 +                                           *****   *****   *****
         |                                   *****   *****   *****   *****
         |                                   *****   *****   *****   *****
         |                           *****   *****   *****   *****   *****
         |   *****                   *****   *****   *****   *****   *****
         --------------------------------------------------------------------
              1965    1970    1975    1980    1985    1990    1995    2000
                                     DoBY Midpoint
      
                                           Friday, December  6, 2019 06:37:26 PM 340
      The UNIVARIATE Procedure
      Variable:  shintyou
                                  Moments
      
      N                          76    Sum Weights                 76
      Mean               181.092105    Sum Observations         13763
      Std Deviation      5.59089172    Variance            31.2580702
      Skewness            0.2473852    Kurtosis            1.74383959
      Uncorrected SS        2494715    Corrected SS        2344.35526
      Coeff Variation    3.08731941    Std Error Mean      0.64131926
      
                    Basic Statistical Measures
           Location                    Variability
      Mean     181.0921     Std Deviation            5.59089
      Median   181.0000     Variance                31.25807
      Mode     183.0000     Range                   34.00000
                            Interquartile Range      6.50000
      
                                           Friday, December  6, 2019 06:37:26 PM 341
      The UNIVARIATE Procedure
      Variable:  shintyou
      
                 Tests for Location: Mu0=0
       
      Test           -Statistic-    -----p Value------
      
      Student's t    t  282.3743    Pr > |t|    <.0001
      Sign           M        38    Pr >= |M|   <.0001
      Signed Rank    S      1463    Pr >= |S|   <.0001
      
      Quantiles (Definition 5)
       
      Level         Quantile
      
      100% Max         201.0
      99%              201.0
      95%              190.0
      90%              187.0
      75% Q3           184.0
      50% Median       181.0
      25% Q1           177.5
      10%              174.0
      5%               172.0
      1%               167.0
      0% Min           167.0
      
                                           Friday, December  6, 2019 06:37:26 PM 342
      The UNIVARIATE Procedure
      Variable:  shintyou
      
              Extreme Observations
       
      ----Lowest----        ----Highest---
       
      Value      Obs        Value      Obs
      
        167       27          190       32
        167        4          190       75
        170       70          190       77
        172       63          193       33
        173       40          201       65
      
                     Missing Values
                             -----Percent Of-----
      Missing                             Missing
        Value       Count     All Obs         Obs
            .           1        1.30      100.00
      
                                           Friday, December  6, 2019 06:37:27 PM 343
      The UNIVARIATE Procedure
      Variable:  DoBY
                                  Moments
      
      N                          77    Sum Weights                 77
      Mean               1991.58442    Sum Observations        153352
      Std Deviation      5.64835945    Variance            31.9039645
      Skewness           -1.5223156    Kurtosis            5.55338437
      Uncorrected SS      305415878    Corrected SS         2424.7013
      Coeff Variation    0.28361135    Std Error Mean       0.6436903
      
                    Basic Statistical Measures
       
          Location                    Variability
      
      Mean     1991.584     Std Deviation            5.64836
      Median   1992.000     Variance                31.90396
      Mode     1991.000     Range                   35.00000
                            Interquartile Range      6.00000
      
                                           Friday, December  6, 2019 06:37:27 PM 344
      The UNIVARIATE Procedure
      Variable:  DoBY
      
                 Tests for Location: Mu0=0
       
      Test           -Statistic-    -----p Value------
      
      Student's t    t   3094.01    Pr > |t|    <.0001
      Sign           M      38.5    Pr >= |M|   <.0001
      Signed Rank    S    1501.5    Pr >= |S|   <.0001
      
      Quantiles (Definition 5)
       
      Level         Quantile
      
      100% Max          2000
      99%               2000
      95%               2000
      90%               1999
      75% Q3            1995
      50% Median        1992
      25% Q1            1989
      10%               1985
      5%                1981
      1%                1965
      0% Min            1965
      
                                           Friday, December  6, 2019 06:37:27 PM 345
      The UNIVARIATE Procedure
      Variable:  DoBY
      
              Extreme Observations
       
      ----Lowest----        ----Highest---
       
      Value      Obs        Value      Obs
      
       1965        1         2000       27
       1978       14         2000       28
       1980        7         2000       42
       1981       58         2000       48
       1984       39         2000       66
      
                                           Friday, December  6, 2019 06:37:27 PM 346
      The UNIVARIATE Procedure
      Variable:  shintyou
                                  Moments
      
      N                          76    Sum Weights                 76
      Mean               181.092105    Sum Observations         13763
      Std Deviation      5.59089172    Variance            31.2580702
      Skewness            0.2473852    Kurtosis            1.74383959
      Uncorrected SS        2494715    Corrected SS        2344.35526
      Coeff Variation    3.08731941    Std Error Mean      0.64131926
      
                    Basic Statistical Measures
          Location                    Variability
      
      Mean     181.0921     Std Deviation            5.59089
      Median   181.0000     Variance                31.25807
      Mode     183.0000     Range                   34.00000
                            Interquartile Range      6.50000
      
                                           Friday, December  6, 2019 06:37:27 PM 347
      The UNIVARIATE Procedure
      Variable:  shintyou
      
                 Tests for Location: Mu0=0
       
      Test           -Statistic-    -----p Value------
      
      Student's t    t  282.3743    Pr > |t|    <.0001
      Sign           M        38    Pr >= |M|   <.0001
      Signed Rank    S      1463    Pr >= |S|   <.0001
      
      Quantiles (Definition 5)
       
      Level         Quantile
      
      100% Max         201.0
      99%              201.0
      95%              190.0
      90%              187.0
      75% Q3           184.0
      50% Median       181.0
      25% Q1           177.5
      10%              174.0
      5%               172.0
      1%               167.0
      0% Min           167.0
      
                                           Friday, December  6, 2019 06:37:27 PM 348
      The UNIVARIATE Procedure
      Variable:  shintyou
      
              Extreme Observations
       
      ----Lowest----        ----Highest---
       
      Value      Obs        Value      Obs
      
        167       27          190       32
        167        4          190       75
        170       70          190       77
        172       63          193       33
        173       40          201       65
      
                     Missing Values
                             -----Percent Of-----
      Missing                             Missing
        Value       Count     All Obs         Obs
            .           1        1.30      100.00
      
                                           Friday, December  6, 2019 06:37:27 PM 349
      The UNIVARIATE Procedure
      Variable:  shintyou
      
         Stem Leaf                     #  Boxplot
          200 0                        1     0
          198
          196
          194
          192 0                        1     |
          190 0000                     4     |
          188                                |
          186 0000                     4     |
          184 0000000000000           13  +-----+
          182 00000000000000          14  |     |
          180 0000000000              10  *--+--*
          178 0000000000              10  |     |
          176 000000000                9  +-----+
          174 00000                    5     |
          172 00                       2     |
          170 0                        1     |
          168
          166 00                       2     0
              ----+----+----+----+
      
                                           Friday, December  6, 2019 06:37:27 PM 350
      The UNIVARIATE Procedure
      Variable:  shintyou
                             Normal Probability Plot
           201+                                                 *
              |
              |
              |                                                 ++
              |                                             *+++
              |                                       **+**+
              |                                      +++
              |                                  ++****
              |                              *******
              |                         ******
              |                      ****+
              |                  *****+
              |              *****+
              |           ****+
              |        *+*++
              |      +*+
              |  ++++
           167++*   *
               +----+----+----+----+----+----+----+----+----+----+
                   -2        -1         0        +1        +2
      
    4. 算出統計量の説明 : 分布形状を把握するのに利用
      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        • 加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        • ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる(99.7%)。
      • Variance : 分散、標準偏差の二乗
        • σとならんで、ばらつきを示す指標
      • Minimum & Maximum : 最小値(Min)と最大値(Max)
      • Quantiles : 四分位数
        • 下位から、0%点(Q0、最小値)、25%点(Q1)、50%点(Q2、Median、中央値、中位数)、75%点(Q3)、100%点(Q4 最大値) .
      • 範囲(Range) : 最大値(Max)-最小値(Min)
      • 四分位範囲 : Q3-Q1
      • Mode : 最頻値
      • Extremes : 最上位と最下位の数サンプル
        • 端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        • 頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        • 時刻表にも似ている
      • Histogram : 度数分布。

      • Box Plot : 箱髭図
        • 分布形状を見る。異常値の検出にも。
        • 箱 : 下端、横線、上端は、それぞれ 25%点(Q1)、50%点(Q2、Median、中央値、中位数)、75%点(Q3)。
        • ひし形(◇) は平均値。
        • 髭 : 箱からの距離が、1.5x[四分偏差] の範囲内にあるサンプルまで伸ばされる。
        • 髭の外側にサンプルがある場合、o(3.0x[四分偏差] の範囲内) や *(それより外側) で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        • 分布が正規分布かどうかを確かめる
        • 斜め右上がりの直線が基準線、oが対象データ。ずれていると正規性が疑われる。

    5. [Lesson 11-1] Stem and Leaf や Histogram 上において、各統計量がどこに位置するかを確認せよ。

    6. 知見 : 解析によって判ったこと & 解ったこと
      • ドラゴンズ選手データにおける「身長」について観てみると、
        • 公表されている選手人数は77名である。
        • 167cmから 201cmの間に散らばっており、幅(Range)は 34cmである。
        • 四分位範囲(Interquartile Range)でみると 6.5cmである。
        • 平均値(Mean)は 181cm、中央値は 181cm、最頻値は 183cmである。
        • またばらつきの指標である標準偏差(Std Deviation)は 6cm である。
        • 頻度分布を見るとほぼ対称の分布になっていることが判る。
        • そのことは箱髭図や正規確率プロットからも判る。

      • 平均値の意味するところ : 対称分布の時だけイメージが一致する
      • 分布の偏り : 常にあると思ってよい : 最頻値や中央値にも注目
      • 少数例の場合にはそれぞれの数値の意味するところに注意が必要。

  3. 「平均」とは? : 中間? 真ん中? 代表値? 大体の目安? ...

    貯蓄現在高 階級別世帯分布 (二人以上の世帯)
    グラフ 貯蓄現在高回級別世帯分布(二人以上の世帯) H18

    分布形状と統計量

  4. [おさらい] 計算結果を利用した報告書の作成手順
     報告書(レポート)を作成するような場合、いちいち書き移すようなことはせず、 SAS の「計算結果」を引用すると簡単でかつ間違いが減り好都合である。 そのためには、「計算結果」をファイルに保存した計算結果を 手元のPCにダウンロードして、編集するのが良いであろう。
     ただし、報告書には計算結果は全部を引用するのではなく、 必要部分だけを切り出し、それぞれに説明を付与する事によって完成するのが、 受け取った人に無駄な労力を払わせずに好印象を持たれると思う。

    1. データを電子化する : Excelで ===> 前回 第4節
    2. データファイルをSASに転送する(アップロード) ===> 前回 第5節
    3. データをファイルから読み込むように SAS プログラムを記述する ===> 前回 第6節
    4. 便利なコマンド ===> 前回 第7節
    5. これらを反映させたサンプルプログラム ===> 前回 第8節
    6. 計算結果の保存
      • [結果タグ]に表示されている計算結果をhtml(左端のアイコン)やPDF(左から2番目のアイコン)に保存する。なお、「proc printto print」で指定した出力(テキストファイル形式)は指定したファイルに保存されている。
    7. ファイルに保存された計算結果を手元のPCにダウンロードする。
      • データ転送と同様に、Navigation Pane(画面左側)で ダウンロードしたいファイルの存在するディレクトリを選択後、 ダウンロードしたいファイルの上で右クリックして「Download File」を選択すると、 手元のPCにファイルがダウンロードされる。
    8. SAS を終了する。
    9. ダウンロードした出力結果を参照しながらワープロやエディタを使って、 レポートを作成する。出力の必要部分だけを切り出して、報告書に引用する。 その際に、有効桁数等には注意して利用せよ。
       なお、PDF の一部を切り出すことが困難な場合は、別添資料として レポートの後ろに添付して下さい。
    10. 電子メール(メール本文に挿入。もしくは添付ファイル)で提出する。

  5. [演習1] 上記の例では頻度集計(freq)にtou やda等の 名義尺度変量(離散変量)を使って集計したが、 shintyou やtaijyuu等の連続変量(数値変量)を使っても実行できる。 その際の出力はどのようになるかを予想し、その後実際に実行してみよ。 出力結果は何を表現し、また、予想は正しかったか?
                                   2019年 1月 8日 火曜日 13時38分28秒  98
    FREQ プロシジャ
                                                   累積         累積
    shintyou        度数       パーセント          度数      パーセント
    ----------------------------------------------------------------------
         167           2          2.53                2          2.53     
         170           1          1.27                3          3.80     
         172           2          2.53                5          6.33     
         173           2          2.53                7          8.86     
         174           4          5.06               11         13.92     
         175           2          2.53               13         16.46     
         176           3          3.80               16         20.25     
         177           5          6.33               21         26.58     
         178           3          3.80               24         30.38     
         179           6          7.59               30         37.97     
         180           7          8.86               37         46.84     
         181           6          7.59               43         54.43     
         182           6          7.59               49         62.03     
         183           9         11.39               58         73.42     
         184           4          5.06               62         78.48     
         185           8         10.13               70         88.61     
         187           3          3.80               73         92.41     
         190           4          5.06               77         97.47     
         193           1          1.27               78         98.73     
         201           1          1.27               79        100.00     
    
                             Frequency Missing = 1
    

  6. 頻度集計(連続変量の場合) : 度数の把握、クロス表

    1. プログラム : Lesson 11-2 : les1102.sas
       /* Lesson 11-02 */
       /*    File Name = les1102.sas  01/08/19   */
      
      options nocenter linesize=78 pagesize=30;
      proc printto print = 'Kougi19/les1102-Results.txt' new;
      
      data dragons;
        infile 'Kougi19/Dragons19.csv'
          firstobs=6 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input No $ Name : $24. Pos $ DoBY DoBM DoBD
              shintyou taijyuu tou $ da $ bikou $;
      
      proc format;                           : 階級を作る。class shintyou の意
        value clshint  low-<170='   -170'    : 階級の定義 1
                       170-<175='170-175'    :            2
                       175-<180='175-180'    :            3
                       180-<185='180-185'    :            4
                       185-<190='185-190'    :            5
                       190-<195='190-195'    :            6
                       195-<200='195-200'    :            7
                       200-high='200-   '    :            8
                       other   ='missing';   :            9
      run;                                   :
      
       <<< 中略 >>> 
      
      proc freq data=dragons;                :
        table shintyou;                      : 変量の指定(1変量の場合)
        table shintyou*tou;                  : 変量の指定(2変量組み合わせの場合)
        format shintyou clshint.;            : 連続変量をグループ化することの指定
      run;                                   :
      

    2. 出力
                                        Saturday, December 14, 2019 09:35:30 PM  72
      The FREQ Procedure
                                           Cumulative    Cumulative
      shintyou    Frequency     Percent     Frequency      Percent
      -------------------------------------------------------------
          -170           2        2.63             2         2.63  
       170-175           6        7.89             8        10.53  
       175-180          21       27.63            29        38.16  
       180-185          29       38.16            58        76.32  
       185-190          12       15.79            70        92.11  
       190-195           5        6.58            75        98.68  
       200-              1        1.32            76       100.00  
      
                          Frequency Missing = 1
      
                                         Saturday, December 14, 2019 09:35:30 PM  73
      The FREQ Procedure
      Table of shintyou by tou
      shintyou     tou
      
      Frequency|
      Percent  |
      Row Pct  |
      Col Pct  |右     |左     |  Total
      ---------+--------+--------+
         -170  |      2 |      0 |      2
               |   2.63 |   0.00 |   2.63
               | 100.00 |   0.00 |
               |   3.17 |   0.00 |
      ---------+--------+--------+
      170-175  |      6 |      0 |      6
               |   7.89 |   0.00 |   7.89
               | 100.00 |   0.00 |
               |   9.52 |   0.00 |
      ---------+--------+--------+
      175-180  |     17 |      4 |     21
               |  22.37 |   5.26 |  27.63
               |  80.95 |  19.05 |
               |  26.98 |  30.77 |
      ---------+--------+--------+
      180-185  |     24 |      5 |     29
               |  31.58 |   6.58 |  38.16
               |  82.76 |  17.24 |
               |  38.10 |  38.46 |
      ---------+--------+--------+
      185-190  |      9 |      3 |     12
               |  11.84 |   3.95 |  15.79
               |  75.00 |  25.00 |
               |  14.29 |  23.08 |
      ---------+--------+--------+
      190-195  |      4 |      1 |      5
               |   5.26 |   1.32 |   6.58
               |  80.00 |  20.00 |
               |   6.35 |   7.69 |
      ---------+--------+--------+
      200-     |      1 |      0 |      1
               |   1.32 |   0.00 |   1.32
               | 100.00 |   0.00 |
               |   1.59 |   0.00 |
      ---------+--------+--------+
      Total          63       13       76
                  82.89    17.11   100.00
      
      Frequency Missing = 1
      

  7. サンプルデータ: 学生のアンケートデータ(all19b.csv.)

  8. [演習2] 前項で示したデータに対して、 幾つかの集計を試してみよ。

  9. グループ分け : 調査対象の性質・特性によって分類

    1. プログラム : Lesson 11-04 : les1104.sas
       /* Lesson 11-04 */
       /*    File Name = les1104.sas  12/17/19   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'Kougi19/les1104-Results.txt' new;
      
      data gakusei;
        infile 'Kougi19/all19b.csv'
          firstobs=2 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=5);
      run;
      
      title '*** データ全体を対象に ***';        : 出力に説明を追記できる
      proc freq data=gakusei;
        table sex;
      run;
      
      proc means data=gakusei;
        var shintyou taijyuu; 
      run;
      ods listing;                              : グラフをキャラクタープロットで出力する場合
      ods graphics off;                         :
      proc univariate data=gakusei plot;
        var shintyou taijyuu; 
      run;
      
      /* 性別ごとに(方法1) */
      title '*** 性別ごとに平均値(方法1) ***';   : 出力に説明を追記できる
      proc means data=gakusei;                  : 平均を算出
        where sex="M";                          : 男について計算
        var shintyou taijyuu; 
      run;
      proc means data=gakusei;                  : 平均を算出
        where sex="F";                          : 女について計算
        var shintyou taijyuu; 
      run;
      
      /* 性別ごとに(方法2) */
      title '*** 性別ごとに平均値(方法2) ***';   : 出力に説明を追記できる
      proc sort data=gakusei;                   : 並べ替え(ソート)
        by sex;                                 : 性別ごとに
      run;
      
      proc means data=gakusei;                  : 平均の計算
        var shintyou taijyuu;                   : 身長と体重について
        by sex;                                 : 性別ごとに
      run;
      
      ods listing;                              : グラフをキャラクタープロットで出力する場合
      ods graphics off;                         :
      proc univariate data=gakusei plot;        : 基礎統計量の計算
        var shintyou taijyuu;                   : 身長と体重について
        by sex;                                 : 性別ごとに
      run;
      
      /* 性別ごとにヒストグラム(方法1) */
      title ' *** 性別ごとにヒストグラム(方法1) ***';
      proc chart data=gakusei;                  : ヒストグラム
        hbar shintyou taijyuu;                  : 指定した変量の水平棒グラフを表示
        by sex;
      run;
      
      /* 性別ごとにヒストグラム(方法2) */
      title '*** 性別ごとにヒストグラム(方法2) ***';
      proc chart data=gakusei;                  : ヒストグラム
        hbar shintyou taijyuu/group=sex;        : 性別ごとに併置して
      run;
      

    2. 出力
      • html 形式: les1104-Results.html
      • pdf 形式: les1104-Results.pdf
      • [結果タグ]の印刷出力 pdf 形式: les1104-Output.pdf
      • テキストファイル: les1104-Results.txt

      • 性別で身長や体重の平均に違いがあることを確認せよ。
      • 各々の分布の特徴と違いを把握せよ。
      • ヒストグラムだけでなく、箱髭図や樹葉図からでも分布特性が把握できるようにせよ。(html 形式、pdf 形式)
      *** データ全体を対象に ***                                          2
                                               Sunday, December 15, 2019 10:54:20 PM
      The FREQ Procedure
                                      Cumulative    Cumulative
      sex    Frequency     Percent     Frequency      Percent
      --------------------------------------------------------
      F           124       33.51           124        33.51  
      M           246       66.49           370       100.00  
      
                       Frequency Missing = 29
      
      *** データ全体を対象に ***                                          3
                                               Sunday, December 15, 2019 10:54:20 PM
      
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   384    168.1773438      8.0907472    145.0000000    186.0000000
      taijyuu    350     58.9580000      9.3019289     35.0000000    100.0000000
      --------------------------------------------------------------------------
      
       <<< 中略 >>> 
      
      *** 性別ごとに平均値(方法1) ***                                   10
                                               Sunday, December 15, 2019 10:54:23 PM
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   242    172.1876033      5.3909417    156.0000000    186.0000000
      taijyuu    242     62.2388430      7.9277377     46.0000000    100.0000000
      --------------------------------------------------------------------------
      
      *** 性別ごとに平均値(方法1) ***                                   11
                                               Sunday, December 15, 2019 10:54:24 PM
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   117    159.0914530      5.3492116    145.0000000    171.0000000
      taijyuu     83     48.6987952      4.7229975     35.0000000     60.0000000
      --------------------------------------------------------------------------
      
      *** 性別ごとに平均値(方法2) ***                                   12
                                               Sunday, December 15, 2019 10:54:24 PM
      sex=' '
      
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou    25    171.8800000      5.9674115    162.0000000    182.0000000
      taijyuu     25     61.2600000      8.5356117     50.0000000     85.0000000
      --------------------------------------------------------------------------
      
      sex=F
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   117    159.0914530      5.3492116    145.0000000    171.0000000
      taijyuu     83     48.6987952      4.7229975     35.0000000     60.0000000
      --------------------------------------------------------------------------
      
      sex=M
      
      The MEANS Procedure
      
      Variable     N           Mean        Std Dev        Minimum        Maximum
      --------------------------------------------------------------------------
      shintyou   242    172.1876033      5.3909417    156.0000000    186.0000000
      taijyuu    242     62.2388430      7.9277377     46.0000000    100.0000000
      --------------------------------------------------------------------------
      
       <<< 中略 >>> 
      
       *** 性別ごとにヒストグラム(方法1) ***                         38
                                               Sunday, December 15, 2019 10:54:26 PM
      sex=' '
      
      shintyou                                            Cum.              Cum.
      Midpoint                                      Freq  Freq  Percent  Percent
                 |
         162.5   |************                         3     3    12.00    12.00
                 |
         167.5   |************************             6     9    24.00    36.00
                 |
         172.5   |********************                 5    14    20.00    56.00
                 |
         177.5   |********************************     8    22    32.00    88.00
                 |
         182.5   |************                         3    25    12.00   100.00
                 |
                 ----+---+---+---+---+---+---+---+
                     1   2   3   4   5   6   7   8
                             Frequency
      
      
       *** 性別ごとにヒストグラム(方法1) ***                         39
                                               Sunday, December 15, 2019 10:54:26 PM
      sex=' '
      
      taijyuu                                                Cum.              Cum.
      Midpoint                                         Freq  Freq  Percent  Percent
                |
           52   |************************************     9     9    36.00    36.00
                |
           60   |************************                 6    15    24.00    60.00
                |
           68   |****************************             7    22    28.00    88.00
                |
           76   |********                                 2    24     8.00    96.00
                |
           84   |****                                     1    25     4.00   100.00
                |
                ----+---+---+---+---+---+---+---+---+
                    1   2   3   4   5   6   7   8   9
                              Frequency
      
       *** 性別ごとにヒストグラム(方法1) ***                         40
                                               Sunday, December 15, 2019 10:54:26 PM
      sex=F
      
      shintyou                                       Cum.              Cum.
      Midpoint                                 Freq  Freq  Percent  Percent
                 |
           144   |*                               1     1     0.85     0.85
           147   |***                             3     4     2.56     3.42
           150   |*****                           5     9     4.27     7.69
           153   |**************                 14    23    11.97    19.66
           156   |*********************          21    44    17.95    37.61
           159   |***************************    27    71    23.08    60.68
           162   |********************           20    91    17.09    77.78
           165   |******************             18   109    15.38    93.16
           168   |*****                           5   114     4.27    97.44
           171   |***                             3   117     2.56   100.00
                 |
                 -----+----+----+----+----+--
                      5    10   15   20   25
                           Frequency
      
       *** 性別ごとにヒストグラム(方法1) ***                         41
                                               Sunday, December 15, 2019 10:54:26 PM
      sex=F
      
      taijyuu                                      Cum.              Cum.
      Midpoint                               Freq  Freq  Percent  Percent
                |
           36   |*                              1     1     1.20     1.20
                |
           40   |****                           4     5     4.82     6.02
                |
           44   |****************              16    21    19.28    25.30
                |
           48   |*************************     25    46    30.12    55.42
                |
           52   |**************************    26    72    31.33    86.75
                |
           56   |********                       8    80     9.64    96.39
                |
           60   |***                            3    83     3.61   100.00
                |
                -----+----+----+----+----+-
                     5    10   15   20   25
                         Frequency
      
       *** 性別ごとにヒストグラム(方法1) ***                         42
                                               Sunday, December 15, 2019 10:54:26 PM
      sex=M
      
      shintyou                                            Cum.              Cum.
      Midpoint                                      Freq  Freq  Percent  Percent
                 |
           156   |*                                    2     2     0.83     0.83
           159   |***                                  5     7     2.07     2.89
           162   |****                                 8    15     3.31     6.20
           165   |*******                             13    28     5.37    11.57
           168   |********************                39    67    16.12    27.69
           171   |********************************    64   131    26.45    54.13
           174   |**************************          51   182    21.07    75.21
           177   |**************                      28   210    11.57    86.78
           180   |***********                         21   231     8.68    95.45
           183   |****                                 8   239     3.31    98.76
           186   |**                                   3   242     1.24   100.00
                 |
                 -----+----+----+----+----+----+--
                      10   20   30   40   50   60
                             Frequency
      
       *** 性別ごとにヒストグラム(方法1) ***                         43
                                               Sunday, December 15, 2019 10:54:26 PM
      sex=M
      
      taijyuu                                Cum.              Cum.
      Midpoint                         Freq  Freq  Percent  Percent
                |
           45   |                         1     1     0.41     0.41
           51   |****                    22    23     9.09     9.50
           57   |************            60    83    24.79    34.30
           63   |********************    98   181    40.50    74.79
           69   |********                38   219    15.70    90.50
           75   |**                      11   230     4.55    95.04
           81   |*                        7   237     2.89    97.93
           87   |                         2   239     0.83    98.76
           93   |                         2   241     0.83    99.59
           99   |                         1   242     0.41   100.00
                |
                ----+---+---+---+---+
                    20  40  60  80 100
                      Frequency
      
      *** 性別ごとにヒストグラム(方法2) ***                          44
                                               Sunday, December 15, 2019 10:54:26 PM
      sex   shintyou                                        Cum.              Cum.
            Midpoint                                  Freq  Freq  Percent  Percent
                       |
                 146   |                                 0     0     0.00     0.00
                 150   |                                 0     0     0.00     0.00
                 154   |                                 0     0     0.00     0.00
                 158   |                                 0     0     0.00     0.00
                 162   |*                                3     3     0.78     0.78
                 166   |*                                3     6     0.78     1.56
                 170   |***                              7    13     1.82     3.39
                 174   |**                               5    18     1.30     4.69
                 178   |**                               4    22     1.04     5.73
                 182   |*                                3    25     0.78     6.51
                 186   |                                 0    25     0.00     6.51
                       |
      F          146   |*                                2    27     0.52     7.03
                 150   |***                              8    35     2.08     9.11
                 154   |*******                         17    52     4.43    13.54
                 158   |************                    31    83     8.07    21.61
                 162   |*************                   33   116     8.59    30.21
                 166   |*********                       22   138     5.73    35.94
                 170   |**                               4   142     1.04    36.98
                 174   |                                 0   142     0.00    36.98
                 178   |                                 0   142     0.00    36.98
                 182   |                                 0   142     0.00    36.98
                 186   |                                 0   142     0.00    36.98
                       |
      M          146   |                                 0   142     0.00    36.98
                 150   |                                 0   142     0.00    36.98
                 154   |                                 0   142     0.00    36.98
                 158   |*                                2   144     0.52    37.50
                 162   |*****                           13   157     3.39    40.89
                 166   |**********                      26   183     6.77    47.66
                 170   |****************************    70   253    18.23    65.89
                 174   |****************************    71   324    18.49    84.38
                 178   |**************                  36   360     9.38    93.75
                 182   |********                        19   379     4.95    98.70
                 186   |**                               5   384     1.30   100.00
                       |
                       ----+---+---+---+---+---+---+
                           10  20  30  40  50  60  70
      
                                 Frequency
       <<< 中略 >>>  
      

    3. 結果の見方
      • 平均値や中央値、最頻値がヒストグラムや箱髭図中で とのような位置にあるか判断できるか?
      • 箱髭図が読めるようになったか? この図だけで分布形状がイメージできるようになったか?
      • 群毎に分けると特徴がより鮮明に判るようになる。
      • 比較する際には軸を揃えたい。揃えないと比較がし難い。
      • 欠損値は除外したい時もある。 ===> 次回 if文

    4. [テクニック] グループを分けて分析する場合は、事前に並べ替えが必要
    5. [演習3] 他の変数も調べてみよ。また、垂直棒グラフでも比較してみよ。
    6. [演習4] 自宅生/下宿生別に集計して両者の違いを明らかにせよ。

  10. 分布の把握について : 気をつける点

  11. 参考:データを見つけてくる際の参考サイトの例

  12. 次回は、... : 01月07日 16:20-17:50
[DIR]講義のホームページへ戻ります