いくつかのデータで実践

コンピュータ応用 D クラス : 第19回目(11/20/97)

ここまでに学んできた手法を未知のいくつかのデータに適用してみて 興味深い知見を得る体験をしてもらう。

データ : 11月13日に配布

配布資料は「A Handbook of Small Data Sets (D.J.Hand, F.Daly, A.D.Lunn, K.J.McConway and E.Ostrowski, 1994, Chapman & Hall)」に掲載されている 510 のデータの中から、 新たに、比較的解析しやすいであろうと判断した 24 のデータを 集録したものである。

データについての最初のページ、および、11枚目のページに、 どのようなデータが選ばれているかの一覧があり、 左から「番号」、「表題」が、右端には「ファイル名」が表示されている。 その次ページから、「番号」の順に、個々の「データの説明」と「数値」が 列挙されている。

なお、データの「数値」をいちいち入力するのは大変であろうから、 「J:\センター設置科目\コンピュータ応用D\datasets\」 というディレクトリにファイルを保存しておく。適宜転送して利用して もかまわない。なお、その時の「ファイル名」は前述の最初のページの右端に 記載されているものが使われている。

作業 :

本日は、以下のような手順で作業を行ってほしい。
  1. 各自でこれらデータの説明を読んで、おもしろいと感じる データを見つけよう。
  2. そのデータについて、SAS を使って解析し、興味深い知見を引き出そう。
  3. 以下の点に注意しながらレポートを作成しよう。

  4. 解析対象とするデータの数は、最低2つとする(上限は設けない)。 1つだけではダメ
  5. 利用するデータ解析手法として「多変量解析の手法」を必ず1回は使うこと。 <=== 特に注意 : これが含まれていないと提出したと見なさない
  6. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

<参考>

  1. 計算機が使えるようになった現在、データのサイズ(数値の量) は解析の難易度とは無関係である。このようなことに捕らわれずに自分の 興味に従って自由にデータを選択してほしい。
  2. また、多変量解析手法(重回帰分析、主成分分析、因子分析等)の場合、 変量数やケース数が少ないと、興味ある知見が得られないことが多い。
  3. 提示されている変量全てを用いて解析するだけでなく、一部だけを使って 解析してみるといった、工夫も考えられる。

レポート :

レポートには、以下に挙げるような項目を含めて作成すること。

提出期限 :

97年12月11日(木) 講義開始時刻まで
[DIR]講義のホームページへ戻ります