いくつかのデータで実践(その2)

情報処理H : 第11回目(01/17/97)

いよいよこの講義の総まとめとして、 ここまでに学んできた手法をいくつかのデータに適用してみて 興味深い知見を得る体験をしてもらう。

データ :

配布資料は第8回と同様「A Handbook of Small Data Sets (D.J.Hand, F.Daly, A.D.Lunn, K.J.McConway and E.Ostrowski, 1994, Chapman & Hall)」に掲載されている 510 のデータの中から、 新たに、比較的解析しやすいであろうと判断した 8 のデータを 集録したものである。

データについての最初のページには、どのようなデータが選ばれているかの 一覧があり、左から「番号」、「表題」が、右端には「ファイル名」が表示されて いる。その次ページから、「番号」の順に、個々の「データの説明」と「数値」が 列挙されている。

なお、データの「数値」をいちいち入力するのは大変であろうから、 「第4回:データの転送」の時と同様に、「J:\センター設置科目\情報処理H\」 というディレクトリにファイルを保存しておいたので、適宜転送して利用して もかまわない。なお、その時の「ファイル名」は前述の最初のページの右端に 記載されているものが使われている。

作業 :

本日は、以下のような手順で作業を行ってほしい。
  1. 各自でこれらデータの説明を読んで、おもしろいと感じる データを見つけよう。
  2. そのデータについて、SAS を使って解析し、興味深い知見を引き出そう。
  3. 以下の点に注意しながらレポートを作成しよう。

  4. 解析対象とするデータの数は、最低2つとする(上限は設けない)。 1つだけではダメ
  5. 第8回の時に配布した16のデータと合わせて、24の中から選んでよろしい。 ただし、前回のレポート提出に用いたデータは除外すること。
  6. 利用するデータ解析手法として「主成分分析」か「因子分析」を 必ず1回は使うこと。<=== 特に注意 : これが含まれていないと提出したと見なさない
  7. 興味を持つ点や得られた知見に対する考察は人によって個々異なるもので あるので、
    他人と相談することなく自分の力で解析しレポートを作成すること。

<参考>

  1. 計算機が使えるようになった現在、データのサイズ(数値の量) は解析の難易度とは無関係である。このようなことに捕らわれずに自分の 興味に従って自由に選択してほしい。
  2. また、多変量解析手法(重回帰分析、主成分分析、因子分析等)の場合、 変量数やケース数が少ないと、興味ある知見が得られないことが多い。
  3. 提示されている変量全てを用いて解析するだけでなく、一部だけを使って 解析してみるといった、工夫も考えられる。

レポート :

レポートには、以下に挙げるような項目を含めて作成すること。
なお、前回と今回のレポートを用いて成績を評価する。

提出期限 :

97年01月23日(木)まで

  • 結びにかえて...
      データ解析はその事象・現象を把握するのに役立つテクニックです。 いずれどこかで必要になったら、今回の講義を思い出して、 気に入った参考書を購入し、独学してみてください。 その際には、自分の直面したデータを用いて、実際に計算させながら 読み進めていくと理解が深まるでしょう。
  • [DIR]講義のホームページへ戻ります