発表会、最終課題 & カイ2乗検定

統計処理 01 クラス : 第27回(最終回)(01/17/01)

長いと思っていたこの講義もいよいよ最終回となりました。 残り 2週では、この講義を終えるにあたって、これまで学んできたことを集大成した レポートを作成 & 提出してもらいたいと思います。
もし、時間に余裕があれば、カイ2乗検定を紹介する。 この手法は、分割表の各要因間が独立であるかどうかを確かめる手法である。

  1. 最終レポート
    1年を通して学んできた SAS の使い方、および統計手法を、 自分が興味を持ったデータに適用してみて興味深い知見を得る体験をしてもらう。

    1. 対象データ :
      • 自分の収集したデータ。
      • 一つである必要はない。多ければ良いというものでもないが。

    2. 作業内容 :
      1. SAS を使って解析し、興味深い知見を引き出そう。
      2. 以下の点に注意しながらレポートを作成しよう。

      3. 利用するデータ解析手法については、特に制限や指定をしないが、 「多変量解析の手法」を使うとより高度なデータ構造が把握できることがある。
      4. 興味を持った点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。
      5. プレゼンテーションで指摘した点を考慮してレポートを作成すること。

    3. レポート : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • データ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと

      • 1年間の講義全体を通しての感想 : 今後の参考にしたいので

    4. 提出期限 :
      2002年01月31日(木) 17:00まで

    5. 注意 :
      1. 紙で提出する場合は、事務所の受付終了時刻に注意すること。 提出日は事務室の受領印で判断する。
      2. 電子メールで提出する場合に、添付ファイルは使わないこと。 また、提出日時はメールヘッダーから判断する。 受領確認メールを必ず返すのでこれを受け取って提出完了となる。
      3. レポートを受領した者の学籍番号は、 講義の連絡ページ に掲載するので、確認すること。 ただし、3回とも提出したからと言って単位が認定されるわけではない点には注意されたい。

  2. データやプログラムのバックアップ
    本年度を終えると(3月まで?)、stat システムにログインできなくなり、 それと同時に stat システム内に保存してあるデータやプログラムも 呼び出せなくなる。この 1年間の勉強成果を残しておきたい人は、 Windows 側に転送して、FD や MO に早めにバックアップを取るようにして下さい。


  3. カイ2乗検定(Chi-Square Test)
    第10回 の講義では、分割表について学んだ。 これは、各属性の組合わせにおける頻度を表示し、 データの分布状況を把握する手法であった。 もし、属性間に何らかの関連があると、頻度は均一にならず、 一部のマス目(セルという)に集中することが考えられる。 セル毎の頻度から、属性間に関係があるかどうかを把握する手法として、 カイ2乗検定(χ^2検定、Chi-Square Test)がある。

    1. プログラム : les2701.sas

       /* Lesson 27-1 */
       /*    File Name = les2701.sas   01/17/02   */
       /*                                                  */
       /*    Original File Name = les1001.sas   06/21/01   */
       /*    Original File Name = les1002.sas   06/21/01   */
      
      data gakusei;
        infile 'all01.prn';
        input seibetsu $ height weight chest jitaku $ kodukai;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc freq data=gakusei;                               
        tables seibetsu*jitaku/chisq;                       
        tables seibetsu*jitaku/chisq norow nocol nopercent; 
      run;                                                  
      
      proc format;
        value clheight low-<150='   -149'
                       150-<160='150-159'
                       160-<170='160-169'
                       170-<180='170-179'
                       180-high='180-   '
                       other   ='missing';
      run;
      
      proc freq data=gakusei;
        tables height*seibetsu/chisq norow nocol nopercent;
        format height clheight.;
      run;
      
      
    2. 出力結果 : les2701.lst
      
                                    SAS システム                             2
                                             19:15 Wednesday, January 16, 2002
      
                            TABLE OF SEIBETSU BY JITAKU
      
                        SEIBETSU     JITAKU
      
                        Frequency|
                        Percent  |
                        Row Pct  |
                        Col Pct  |G       |J       |  Total
                        ---------+--------+--------+
                        F        |     15 |     36 |     51
                                 |   8.43 |  20.22 |  28.65
                                 |  29.41 |  70.59 |
                                 |  24.19 |  31.03 |
                        ---------+--------+--------+
      
                        M        |     47 |     80 |    127
                                 |  26.40 |  44.94 |  71.35
                                 |  37.01 |  62.99 |
                                 |  75.81 |  68.97 |
                        ---------+--------+--------+
                        Total          62      116      178
                                    34.83    65.17   100.00
      
      
                        Frequency Missing = 27
      
                                    SAS システム                             5
                                             19:15 Wednesday, January 16, 2002
      
                     STATISTICS FOR TABLE OF SEIBETSU BY JITAKU
      
               Statistic                     DF     Value        Prob
               ------------------------------------------------------
               Chi-Square                     1     0.925       0.336
               Likelihood Ratio Chi-Square    1     0.941       0.332
               Continuity Adj. Chi-Square     1     0.621       0.431
               Mantel-Haenszel Chi-Square     1     0.920       0.338
               Fisher's Exact Test (Left)                       0.216
                                   (Right)                      0.873
                                   (2-Tail)                     0.387
               Phi Coefficient                     -0.072            
               Contingency Coefficient              0.072            
               Cramer's V                          -0.072            
      
               Effective Sample Size = 178
               Frequency Missing = 27
      
      
               WARNING:  13% のデータが欠損です.
      
                                    SAS システム                             7
                                             19:15 Wednesday, January 16, 2002
      
                            TABLE OF SEIBETSU BY JITAKU
      
                        SEIBETSU     JITAKU
      
                        Frequency|G       |J       |  Total
                        ---------+--------+--------+
                        F        |     15 |     36 |     51
                        ---------+--------+--------+
                        M        |     47 |     80 |    127
                        ---------+--------+--------+
                        Total          62      116      178
      
                        Frequency Missing = 27
      
                                    SAS システム                             8
                                             19:15 Wednesday, January 16, 2002
      
                     STATISTICS FOR TABLE OF SEIBETSU BY JITAKU
      
               Statistic                     DF     Value        Prob
               ------------------------------------------------------
               Chi-Square                     1     0.925       0.336
               Likelihood Ratio Chi-Square    1     0.941       0.332
               Continuity Adj. Chi-Square     1     0.621       0.431
               Mantel-Haenszel Chi-Square     1     0.920       0.338
               Fisher's Exact Test (Left)                       0.216
                                   (Right)                      0.873
                                   (2-Tail)                     0.387
               Phi Coefficient                     -0.072            
               Contingency Coefficient              0.072            
               Cramer's V                          -0.072            
      
               Effective Sample Size = 178
               Frequency Missing = 27
      
      
               WARNING:  13% のデータが欠損です.
      
                                    SAS システム                            10
                                             19:15 Wednesday, January 16, 2002
      
                            TABLE OF HEIGHT BY SEIBETSU
      
                        HEIGHT     SEIBETSU
      
                        Frequency|F       |M       |  Total
                        ---------+--------+--------+
                           -149  |      4 |      0 |      4
                        ---------+--------+--------+
                        150-159  |     21 |      1 |     22
                        ---------+--------+--------+
                        160-169  |     29 |     39 |     68
                        ---------+--------+--------+
      
                        170-179  |      1 |     86 |     87
                        ---------+--------+--------+
                        180-     |      0 |     15 |     15
                        ---------+--------+--------+
                        Total          55      141      196
      
                        Frequency Missing = 9
      
                                    SAS システム                            12
                                             19:15 Wednesday, January 16, 2002
      
                     STATISTICS FOR TABLE OF HEIGHT BY SEIBETSU
      
               Statistic                     DF     Value        Prob
               ------------------------------------------------------
               Chi-Square                     4   103.983       0.001
               Likelihood Ratio Chi-Square    4   120.816       0.001
               Mantel-Haenszel Chi-Square     1    93.076       0.001
               Phi Coefficient                      0.728            
               Contingency Coefficient              0.589            
               Cramer's V                           0.728            
      
               Effective Sample Size = 196
               Frequency Missing = 9
               WARNING: 30% of the cells have expected counts less 
                        than 5. Chi-Square may not be a valid test.
      
      
    3. 解析結果
      • 分割表 : 頻度、各パーセント(オプションによって)
      • 分割表に対する統計量
        • カイ2乗値(Chi-Square) : 幾つかの種類がある
        • 有意確率(Prob)
      • セル内の頻度が 5以下のものがあると警告が出る。
      • データの欠損率が高いと警告が出る。

      • 性別と自宅/下宿 : 関係があるとは言えない(Prob=0.336)
      • 性別と身長 : 関係があると言える(Prob=0.001)

  4. 最後に
    この講義を通して、「統計」や「データ解析」と言う言葉に 多少は親しみを持っていただけただろうか? 今後いろいろな場面で、いろいろな数値列に出会うことになると思うが、 提示された数値にはどの様な意味(と意図)があり、 どう理解して、個人としてどうアクションを起すかの、 一つの判断手段として活用してもらえれば幸いである。

    なお、今まで利用していた私のメールアドレスは実は講義用のものであった。 今後、もし統計に関して何か疑問に出会い、連絡してみたいと思った時は、 以下のアドレスを使ってください。

    メールアドレス : hayashi@rd.dnc.ac.jp

    皆さんの期待に応えられたか心配な部分もあるが、一年間ご苦労様でした。

[DIR]講義のホームページへ戻ります