データの電子化と転送方法

コンピュータによる統計処理 01 クラス : 第2回目(04/27/00)


メーリングリスト経由のメールは届きましたか? さて、今週は前回回収したアンケートを例に、 どのように集計作業を進めていくかを説明する。 また、質問についても順に回答し、SAS を使う動機付けにする。

  1. アンケートの集計 : 目の前に紙の山 ===> さあどうする?

    1. まず電子化
      • 入力作業
      • 場合によってはコード化

    2. スクリーニング
      • 入力ミスの修正
      • 地味だが非常に重要な作業、重労働 <=== チェック方法

    3. 基礎集計 by Excel(表計算ソフト)

    4. 表計算ソフトの限界 <=== Excel で統計処理を全てこなす
      • 大量データになったら?
      • 複雑な統計手法になったら? 多変量解析...
      • 欠損値の取り扱い
      • 統計向けソフトウエアの利用が一般的 : データ解析
        • BMDP : BioMedical Data Programs(?)
        • SPSS : Statistical Package for Social Science
        • SAS : Statistical Analysis System
        • S, S-PLUS : Statistical
        • LISP-STAT : Lisp で実現、フリーソフト
        • ...
      • [参考] SAS での解析例

  2. アンケートの設計
    1. 調査の目的を明確に
    2. 集計方法や予想される回答を予想して設計すべき
    3. 質問項目や選択肢の吟味
    4. 設計の善し悪しによって得られる結果の質も変わる

  3. アンケートに対する回答

  4. 連絡方法

  5. データの電子化
    取り扱うデータが長方形(表形式)をしているので、表計算ソフトと呼ばれるアプリケーションを利用するのが便利である。 ここでは、Microsoft Excel を例に実際に電子化の手順を説明する。 なお、Excel のより詳しい使い方については、 「PC・ネットワーク利用ガイド」を参考にしてほしい。
    1. Excel の起動
      「スタート」→「プログラム(P)」→「Microsoft Office」→「Microsoft Excel」とクリックする。
    2. データの入力
      表示された枠に「表形式」と呼ばれる並び(縦:ケース、横:変量) で順にデータをキー入力していく。なお、実習では半角英数字のみを取り扱うことにする。
    3. カーソルの移動には、「Tab」キーが便利である(右方向へ移動)。 縦方向の移動には「Enter」キー。矢印キーやマウスで移動させることもできるが、 次変量の入力のための移動にこれらのキーを使うと入力スピードが遅くなるので得策ではない。
    4. 欠測値(欠損値)データには「.(ピりオド)」を入力 : データ採取は難しい!!
    5. Lesson 2-1 : データの電子化 : 以下の12ケース、6変量(性別、身長、体重、胸囲、自宅生/下宿生の別、小遣い額)のデータを電子化せよ
      M   180.3     61   不明   不明     不明
      F     148     42   不明     J     50000
      M   168.6   57.2   不明     J      7000
      M     181     60     80     G    160000
      F     167     53     85     G    130000
      M   174.3   62.4     85     J     20000
      M     160     55   不明     J     25000
      M     174     60   不明     G    160000
      M     176     63   不明     J     50000
      M     180     65     88     J     30000
      F     164   不明   不明     G     75000
      F     158     49     85     J         0
      
      入力画面
    6. 項目の右揃え
      Excel で入力したデータをファイルに保存する際には、 各数値の間に空白を入れておけば SAS で読み込むときに都合が良いのだが、 欠損値を示す「.」は「文字型」と判断されて「左寄せ」で出力されてしまい 左隣の数値と引っ付いてしまうらしい。そこでこの現象を回避するために 全ての項目を「右揃え」してから保存するようにしておく。
      表の左上の何も書いていないボタンをクリックすると「表全体」 が選択されて反転表示されるので、この状態で「右揃え」ボタンを押す。
    7. データの保存
      Excel の標準形式(*.xls)で保存すると、UNIX 上では利用できないので、 テキスト形式で保存する必要がある。
      「ファイル」→「名前を付けて保存(A)」で保存ができる。
      ドライブ名やファイル名を指定後、 「ファイルの種類」の項に対して「テキスト(スペース区切り)(*.prn)」を指定する。
      「選択した種類のファイルでは、作業中のシート以外は保存されません」等のメッセーが出るが、無視してよい。
    8. Lesson 2-2 : データの保存 : 上で入力したデータを SAS で使うことを考慮してテキスト形式で保存せよ。
      この後の都合があるので、ここでは、ドライブ名に「H:」、 ファイル名に「les0201」を指定したとして説明を進める (les0201.prn)。
    9. Excel の終了

  6. MNC のシステム概要
    講義で実習する SAS は stat システムという計算機上で稼働しており、 このシステムにログインして利用することになる。 このシステムには、UNIX という OS が使われており、 Windows 環境とは異なった操作体系を修得する必要がある。
    しかし幸い、SAS を使うことだけを取り上げた場合、UNIX の知識は必要なく、 Windows 環境からあたかも Windowsを使っているかのように (DOSと言った方がより近い) stat システムを操作・利用することができる。

    つまり、前項で作成したデータを SAS で解析するには、 stat システムに持って行く(転送という)必要がある。 なお、stat システムにはプリンタが接続されていないので、 出力に関しても UNIX から Windows に転送する必要があるが、 この実習は後日行う。

    [参考] MNC セミナー用テキスト : 統計システム入門 (UNIX で使うSAS) :

    URL は http://www.mnc.waseda.ac.jp/ssguide/semisas5/index.html

  7. データ転送(送信)
    1. NMC セミナー用テキストの「 WS_FTP32を使ったファイルの転送 」の項を参照
      1. 転送プログラム(FTP)の起動
        「スタート」→「プログラム(P)」→「stat システム」→「ftp stat-system」とクリックする。
      2. 「User ID:」を入力後、Tabキーで「Password:」に移動し入力する。
      3. 転送元のドライブ、ファイルを指定する。
      4. 転送モードを「ASCII」に変更する。
      5. 画面中央にある「-->」をクリックすることにより転送できる。
      6. 終了は「Exit」をクリック。
    2. Lesson 2-3 : ファイルの転送: Windows ===> stat システム(UNIX)
      • 転送元 : H:les0201.prn

      • 転送先 : 各自の stat システムのディレクトリ(正確にはホームディレクトリと呼ぶ)

      • 転送モードは「ASCII」を選択

  8. 転送されたデータの表示 : 確認のため
    1. UNIX にログイン
      「スタート」→「プログラム(P)」→「stat システム」→「stat1」とクリックする。 (stat1 と 2, 3 はどれでも対等。混み具合いによって変更してよい)。
    2. 「login:」、「Password:」と表示されるので、 それぞれ個人のIDとパスワードを入力する。 なお、パスワードはセキュリティの都合上、画面には表示されない。
    3. UNIX の初歩のコマンド
      • ファイル名一覧の表示 : ls
      • ファイルの内容の表示 : cat <file-name>
      • ログアウト : logout
    4. Lesson 2-4 : 転送されたファイルの確認
      転送したファイルが実際に存在し、ファイル内容も正しいことを確認せよ。
      • ls
      • cat les0201.prn
      • logout

  9. 宿題 : 5月11日にでも実習してください <=== 私は登校しない
    今後各種データを SAS で解析できるようにしておきたいので、 以下のデータを電子化し stat システムに転送しておいて下さい。 データの形状(ケース数や変量数、データの内容)やファイル名を忘れないように 記録(メモ)を残す習慣を付けよう。
    1. 皆さんの体格に関するデータ : 配布資料の左側(右端は入力イメージ)
    2. 皆さんの小遣いに関するデータ : 配布資料の中央(〃)
    3. 連休中に収集してもらった各自の興味あるデータ(個人ごとに異なるはず)
    4. [注意] データの電子化のためには、コード化も必要になる。 「男/女」を「M/F」、「自宅生/下宿生」を「J/G」等と置き換える。 また、欠損値(不明)の取り扱いは Lesson 2-1 に従うこと。

  10. 次回は、... : 5月18日 14:45
    • SAS を使ってみよう
    • 興味あるデータの特性を明らかにしてみよう
    [DIR]講義のホームページへ戻ります