外れ値の処理と頻度集計

統計解析 02 クラス : 第08回 (06/08/06)

 前回までに分布特性を把握するためのいくつかの指標を説明し、 その使い方や注意点を喚起した。 今回は、単純集計としてよく利用される頻度集計やクロス集計の方法を紹介する。

  1. レポートを拝見して & 先輩の例から: 提出者の学籍番号は 連絡ページ に掲載
    i. SAS, 操作関連 ii. レポート作成関連 iii. 電子メール関連

    iv. 統計関連

    v. その他、今後への発展

  2. 前回の続き: 外れ値(Outliar)や異常値の処理 : 前回の配付資料の第3節

  3. 頻度集計(名義尺度、離散変量の場合) : 度数の把握、クロス表

    1. プログラム : Lesson 08-1 : les0801.sas
       /* Lesson 08-1 */
       /*    File Name = les0801.sas   06/08/06   */
      
      data gakusei;
        infile 'all06ae.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui
              jitaku $ kodukai carryer $ tsuuwa;
       
      proc print data=gakusei(obs=5);
      run;
                                                    :
      proc freq data=gakusei;                       : 頻度を算出
        tables sex jitaku carryer;                  : 一変量ごとに
      run;                                          :
      proc freq data=gakusei;                       : 頻度を算出
        tables sex*jitaku;                          : 二変量の組み合わせで
        tables sex*carryer;                         :
        tables jitaku*carryer;                      :
      run;                                          :
      
    2. 出力結果 : les0801.lst :
      • 自宅生/下宿生の人数、自宅生/下宿生の人数。これらの組合わせの人数。
      • 頻度、割合(%)、累積頻度、累積割合(%)
      • 頻度、全体割合、縦割合、横割合
                                    SAS システム                             1
                                                  09:02 Thursday, June 8, 2006
      
       OBS  SEX  SHINTYOU  TAIJYUU  KYOUI  JITAKU  KODUKAI  CARRYER   TSUUWA
      
         1   F     145.0      38       .     J      10000                 . 
         2   F     146.7      41      85     J      10000   Vodafone   6000 
         3   F     148.0      42       .     J      50000                 . 
         4   F     148.0      43      80     J      50000   DoCoMo     4000 
         5   F     148.9       .       .     J      60000                 . 
      
                                    SAS システム                             2
                                                  09:02 Thursday, June 8, 2006
      
                                            Cumulative  Cumulative
                 SEX   Frequency   Percent   Frequency    Percent 
                 -------------------------------------------------
                 F          117      33.5         117       33.5  
                 M          232      66.5         349      100.0  
      
                               Frequency Missing = 5
      
                                              Cumulative  Cumulative
                JITAKU   Frequency   Percent   Frequency    Percent 
                ----------------------------------------------------
                G             110      36.4         110       36.4  
                J             192      63.6         302      100.0  
      
                               Frequency Missing = 52
      
                                               Cumulative  Cumulative
               CARRYER    Frequency   Percent   Frequency    Percent 
               ------------------------------------------------------
               DDIp              2       1.5           2        1.5  
               DoCoMo           56      43.1          58       44.6  
               J-PHONE          10       7.7          68       52.3  
               KDDI              1       0.8          69       53.1  
               No                5       3.8          74       56.9  
               Vodafone         20      15.4          94       72.3  
               Willcom           1       0.8          95       73.1  
               au               35      26.9         130      100.0  
      
                              Frequency Missing = 224
      
                                    SAS システム                             5
                                                  09:02 Thursday, June 8, 2006
                               TABLE OF SEX BY JITAKU
      
                        SEX       JITAKU
                        Frequency|
                        Percent  |
                        Row Pct  |
                        Col Pct  |G       |J       |  Total
                        ---------+--------+--------+
                        F        |     34 |     66 |    100
                                 |  11.33 |  22.00 |  33.33
                                 |  34.00 |  66.00 |
                                 |  31.19 |  34.55 |
                        ---------+--------+--------+
                        M        |     75 |    125 |    200
                                 |  25.00 |  41.67 |  66.67
                                 |  37.50 |  62.50 |
                                 |  68.81 |  65.45 |
                        ---------+--------+--------+
                        Total         109      191      300
                                    36.33    63.67   100.00
      
                        Frequency Missing = 54
      
                                    SAS システム                             8
                                                  09:02 Thursday, June 8, 2006
                              TABLE OF SEX BY CARRYER
      
               SEX       CARRYER
               Frequency|
               Percent  |
               Row Pct  |
               Col Pct  |DDIp    |DoCoMo  |J-PHONE |KDDI    |  Total
               ---------+--------+--------+--------+--------+
               F        |      1 |     23 |      4 |      0 |     51
                        |   0.78 |  17.83 |   3.10 |   0.00 |  39.53
                        |   1.96 |  45.10 |   7.84 |   0.00 |
                        |  50.00 |  41.07 |  44.44 |   0.00 |
               ---------+--------+--------+--------+--------+
               M        |      1 |     33 |      5 |      1 |     78
                        |   0.78 |  25.58 |   3.88 |   0.78 |  60.47
                        |   1.28 |  42.31 |   6.41 |   1.28 |
                        |  50.00 |  58.93 |  55.56 | 100.00 |
               ---------+--------+--------+--------+--------+
               Total           2       56        9        1      129
                            1.55    43.41     6.98     0.78   100.00
               (Continued)
      
                                    SAS システム                            10
                                                  09:02 Thursday, June 8, 2006
                              TABLE OF SEX BY CARRYER
      
               SEX       CARRYER
               Frequency|
               Percent  |
               Row Pct  |
               Col Pct  |No      |Vodafone|Willcom |au      |  Total
               ---------+--------+--------+--------+--------+
               F        |      1 |      9 |      1 |     12 |     51
                        |   0.78 |   6.98 |   0.78 |   9.30 |  39.53
                        |   1.96 |  17.65 |   1.96 |  23.53 |
                        |  20.00 |  45.00 | 100.00 |  34.29 |
               ---------+--------+--------+--------+--------+
               M        |      4 |     11 |      0 |     23 |     78
                        |   3.10 |   8.53 |   0.00 |  17.83 |  60.47
                        |   5.13 |  14.10 |   0.00 |  29.49 |
                        |  80.00 |  55.00 |   0.00 |  65.71 |
               ---------+--------+--------+--------+--------+
               Total           5       20        1       35      129
                            3.88    15.50     0.78    27.13   100.00
      
               Frequency Missing = 225
      
      
    3. [補足1] SAS は、パソコン画面のサイズ(正確には Output エリアのサイズ)によっては、 出力の縦横幅が変るように設計されている。 上記の出力中、「SEX x JITAKU」のクロス表は、 デフォルトの画面サイズ(何も指定しない場合)では、 縦に分断されたように表示される。 これは、教室のパソコンの画面では縦方向の行数が少ないので、 クロス表が「小出し」に表示されるためである。 間にある 15行程の不要部分を削除すると、視覚的にも理解しやすい クロス表を得ることができ、配布資料はそのような編集作業後のものである。 皆さんもレポート作成時にはこの様な編集作業を行って 親切なレポート作成を心掛けてください。

    4. [補足2] 累積頻度の使い方の一つとして、頻度の高いもの順(降順)と言う指定もでき、 「上位 50% までのパターンを知りたい」と言うような時に使うことができる。
      プログラム例 : les0801Order.sas、 出力結果 : les0801Order.lst
      ≪前略≫
      proc freq data=gakusei order=freq;      : 頻度の高いもの順
        tables sex jitaku carryer;            :
      run;                                    :
                                              :
      proc freq data=gakusei order=freq;      : 頻度の高いもの順
        tables sex*jitaku;                    :
        tables sex*carryer;                   :
        tables jitaku*carryer;                :
      run;                                    :
      ≪後略≫
      

    5. [演習1] 上記の例では二変量の組合わせまでを行ったが、 三変量以上の組合わせを行うことも可能である。 その際の出力はどのようになるかを予想し、その後実際に実行してみよ。 出力結果は何を表現し、また、予想は正しかったか?
      プログラム : les0802.sas、 出力結果 : les0802.lst

    6. [演習2] 上記の例では名義尺度変量(離散変量)を使って 集計を行ったが、shintyou 等の連続変量(数値変量)を使っても実行できる。 その際の出力はどのようになるかを予想し、その後実際に実行してみよ。 出力結果は何を表現し、また、予想は正しかったか?
      プログラム : les0803.sas、 出力結果 : les0803.lst

  4. 頻度集計(連続変量の場合) : 度数の把握、クロス表

    1. プログラム : Lesson 08-4 : les0804.sas
       /* Lesson 08-4 */
       /*    File Name = les0804.sas   06/08/06   */
      
      data gakusei;
        infile 'all06ae.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui 
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc format;                           : 階級を作る。class shintyou の意
        value clshint  low-<150='   -149'    : 階級の定義 1
                       150-<160='150-159'    :            2
                       160-<170='160-169'    :            3
                       170-<180='170-179'    :            4
                       180-high='180-   '    :            5
                       other   ='missing';   :            6
      run;                                   :
      
      proc print data=gakusei(obs=5);
      run;
      
      proc freq data=gakusei;                : 頻度を算出
        tables shintyou;                     : 一変量ごとに
        format shintyou clshint.;            : 連続変量をグループ化することの指定
      run;                                   :
                                             :
      proc freq data=gakusei;                : 頻度を算出
        tables sex*shintyou;                 : 二変量の組合わせで
        format shintyou clshint.;            : 連続変量をグループ化することの指定
      run;                                   :
                                             :
      proc sort data=gakusei;                : 今までの方法で実現しようとすると
        by sex;                              :
      run;                                   :
      proc freq data=gakusei;                :
        tables shintyou;                     :
        format shintyou clshint.;            : 連続変量をグループ化することの指定
        by sex;                              : 性別ごとに
      run;                                   :
      
      
    2. 出力結果 : les0804.lst : 階級ごとの頻度
      • 各階級ごとの頻度、割合(%)、累積頻度、累積割合(%)
      
                                    SAS システム                             2
                                                  09:02 Thursday, June 8, 2006
      
                                               Cumulative  Cumulative
               SHINTYOU   Frequency   Percent   Frequency    Percent 
               ------------------------------------------------------
                  -149           6       1.8           6        1.8  
               150-159          50      14.7          56       16.5  
               160-169         116      34.2         172       50.7  
               170-179         144      42.5         316       93.2  
               180-             23       6.8         339      100.0  
      
                               Frequency Missing = 15
      
                                    SAS システム                             3
                                                  09:02 Thursday, June 8, 2006
                              TABLE OF SEX BY SHINTYOU
      
           SEX       SHINTYOU
           Frequency|
           Percent  |
           Row Pct  |
           Col Pct  |   -149 |150-159 |160-169 |170-179 |180-    |  Total
           ---------+--------+--------+--------+--------+--------+
           F        |      6 |     48 |     54 |      2 |      0 |    110
                    |   1.78 |  14.20 |  15.98 |   0.59 |   0.00 |  32.54
                    |   5.45 |  43.64 |  49.09 |   1.82 |   0.00 |
                    | 100.00 |  96.00 |  46.96 |   1.39 |   0.00 |
           ---------+--------+--------+--------+--------+--------+
           M        |      0 |      2 |     61 |    142 |     23 |    228
                    |   0.00 |   0.59 |  18.05 |  42.01 |   6.80 |  67.46
                    |   0.00 |   0.88 |  26.75 |  62.28 |  10.09 |
                    |   0.00 |   4.00 |  53.04 |  98.61 | 100.00 |
           ---------+--------+--------+--------+--------+--------+
           Total           6       50      115      144       23      338
                        1.78    14.79    34.02    42.60     6.80   100.00
      
           Frequency Missing = 16
      
                                    SAS システム                             6
                                                  09:02 Thursday, June 8, 2006
      ------------------------------- SEX=' ' --------------------------------
                                               Cumulative  Cumulative
               SHINTYOU   Frequency   Percent   Frequency    Percent 
               ------------------------------------------------------
               160-169           1     100.0           1      100.0  
      
                               Frequency Missing = 4
      
                                    SAS システム                             7
                                                  09:02 Thursday, June 8, 2006
      -------------------------------- SEX=F ---------------------------------
                                               Cumulative  Cumulative
               SHINTYOU   Frequency   Percent   Frequency    Percent 
               ------------------------------------------------------
                  -149           6       5.5           6        5.5  
               150-159          48      43.6          54       49.1  
               160-169          54      49.1         108       98.2  
               170-179           2       1.8         110      100.0  
      
                               Frequency Missing = 7
      
                                    SAS システム                             8
                                                  09:02 Thursday, June 8, 2006
      -------------------------------- SEX=M ---------------------------------
                                               Cumulative  Cumulative
               SHINTYOU   Frequency   Percent   Frequency    Percent 
               ------------------------------------------------------
               150-159           2       0.9           2        0.9  
               160-169          61      26.8          63       27.6  
               170-179         142      62.3         205       89.9  
               180-             23      10.1         228      100.0  
      
                               Frequency Missing = 4
      

  5. 次回は、... : 6月15日 14:45
[DIR]講義のホームページへ戻ります