データの電子化と転送方法

コンピュータによる統計処理 01 クラス : 第2回(04/18/02)


今週は前回回収したアンケートを例に、 どのように集計作業を進めていくかを説明する。 また、質問についても回答し、SAS を使う動機付けにする。

  1. アンケートに対する回答

  2. アンケートの集計 : 目の前に紙の山 ===> さあどうする?
    1. まず電子化
      • 入力作業
      • 場合によってはコード化

    2. スクリーニング
      • 入力ミスの修正
      • 地味だが非常に重要な作業、重労働 <=== チェック方法

    3. 基礎集計 by Excel(表計算ソフト)
      • 組み込み関数を使って : average, min, max, median, ...
        計算 図示、...

    4. 表計算ソフトの限界 <=== Excel で統計処理を全てこなす
      • 大量データになったら?
      • 複雑な統計手法になったら? 多変量解析...
      • 欠損値の取り扱い
      • 統計向けソフトウエアの利用が一般的 : データ解析
        • BMDP : BioMedical Data Programs(?)
        • SPSS : Statistical Package for Social Science
        • SAS : Statistical Analysis System
        • S, S-PLUS : Statistical
        • LISP-STAT : Lisp で実現、フリーソフト
        • Statistica
        • ...
      • [参考] SAS での解析例

  3. アンケートの設計
    1. 調査の目的を明確に
    2. 集計方法や予想される回答を予想して設計すべき
    3. 質問項目や選択肢の吟味、予備調査
    4. 解析方法も事前に想定しておく
    5. 設計の善し悪しによって得られる結果の質も変わる

  4. データの電子化
    取り扱うデータが長方形(表形式)をしているので、表計算ソフトと呼ばれるアプリケーションを利用するのが便利である。 ここでは、Microsoft Excel を例に実際に電子化の手順を説明する。 なお、Excel のより詳しい使い方については、 「PC・ネットワーク利用ガイド」を参考にしてほしい。
    1. Excel の起動
      「スタート」→「プログラム(P)」→「Microsoft Office」→「Microsoft Excel」とクリックする。
    2. データの入力
      表示された枠に「表形式」と呼ばれる並び(縦:ケース、横:変量) で順にデータをキー入力していく。なお、実習では半角英数字のみを取り扱うことにする。
    3. カーソルの移動には、「Tab」キーが便利である(右方向へ移動)。 縦方向の移動には「Enter」キー。矢印キーやマウスで移動させることもできるが、 次変量の入力のための移動にこれらのキーを使うと入力スピードが遅くなるので得策ではない。
    4. データの電子化のためには、コード化も必要になる。
      • 「男/女」を「M/F」等と置き換える。
      • 「自宅生/下宿生」を「J/G」等と置き換える。
      • 「携帯電話会社」を適当な省略形に置き換える。
      • 欠測値(欠損値、不明)データには「.(ピりオド)」を入力。 : データ採取は難しい!!

    5. Lesson 2-1 : データの電子化 : 以下の10ケース、8変量(性別、身長、体重、胸囲、自宅生/下宿生の別、小遣い額、携帯電話会社、月平均通話料) のデータを入力画面を参考に電子化せよ。

      • 入力時の注意 : 今回の例ではあまり起らないと思うが
        • 各項目内に空白は入れないこと。
        • SAS は空白を区切り記号と判断するため。

        • [補足] SAS 用のデータに漢字が含まれていても構わない。 しかし、日本語入力を行うと作業時間がかかるので、 講義では半角英数字のみを用いる。

      168 74 不明 下宿 120000 DDIpocket 15000
      158 45.5 不明 自宅 不明 DoCoMo 10000
      156 42 85 自宅 0 DoCoMo 15000
      165 55 不明 自宅 4000 No 不明
      156 42 不明 自宅 35000 不明 7000
      170 56.4 不明 下宿 20000 J-PHONE 30000
      160 48 76 自宅 5000 No 不明
      166 47 75 自宅 30000 J-PHONE 8000
      不明 168 60 不明 自宅 23000 J-PHONE 10000
      181.5 74.5 不明 下宿 120000 au 3000

      入力画面

    6. 項目の右揃え
      SAS は空白(スペース)を区切り文字として、テキストファイルからデータを 読み込むことができる。つまり各項目間には空白を入れておく必要がある。 しかし、欠損値を示す「.」や「携帯電話会社名」は Excel 内では 「文字型」と判断されてデフォルトでは「左寄せ」で出力されてしまい 左隣の項目(数値)と引っ付いてしまう。 そこでこの現象を回避するために全ての項目を「右揃え」してから 保存するようにしておく。
      表の左上の何も書いていないボタンをクリックすると「表全体」 が選択されて反転表示されるので、この状態で「右揃え」ボタンを押す。
      また、今回の例では発生しないかもしれないが、 項目一つあたりの入力文字数の多い(つまり長い)項目の場合、 隣のセルの項目とくっついて表示されてしまうことがある。 そのような場合は、列の幅を大きくして隙間を空けておく。
    7. データの保存
      Excel の標準形式(*.xls)で保存すると、SAS では利用できないので、 テキスト形式で保存する必要がある。 「ファイル」→「名前を付けて保存(A)」で保存ができる。 ドライブ名やファイル名を指定後、 「ファイルの種類」の項に対して「テキスト(スペース区切り)(*.prn)」を指定する。
      「選択した種類のファイルでは、作業中のシート以外は保存されません」等のメッセーが出る場合があるが、無視してよい。
    8. Lesson 2-2 : データの保存 : 上で入力したデータを SAS で使うことを考慮してテキスト形式で保存せよ。
      この後の説明を簡単にするために、ここでは、ドライブ名に「H:」、 ファイル名に「les0201」を指定したとして説明を進める (les0201.prn)。
    9. Excel の終了

  5. MNC のシステム概要
    講義で実習する SAS は stat システムという計算機上で稼働しており、 このシステムにログインして利用することになる。 このシステムには、UNIX という OS が使われており、 Windows 環境とは異なった操作体系を修得する必要がある。
    しかし幸い、SAS を使うことだけに注目した場合、UNIX の知識はほとんど必要なく、 Windows 環境からあたかも Windowsを使っているかのように (DOSと言った方がより近い) stat システムを操作・利用することができる。

    つまり、前項で作成したデータを SAS で解析するには、 stat システムに持って行く(送信という)必要がある。 また、stat システムにはプリンタが接続されていないので、 出力に関してもstat システムから Windows に転送する必要がある。 後者についての実習は後日行う。

    これらをまとめると、以下のようになる。

    [参考] MNC セミナー用テキスト : 統計システム入門 (UNIX で使うSAS) :

    URL は http://www.mnc.waseda.ac.jp/ssguide/semisas5/index.html

  6. データ転送(送信) : FFFTP を使ったファイルの送受信
    漢字コードを含むファイルの送受信ツールとして FFFTP が用意されているので、このソフトウェアの使い方を説明する。 なお、これはフリーソフトである。

    1. [背景] 漢字コードについて
      漢字コードには幾つかの体系があって、異なったコード体系間では 変換を行わないと正常には読み出せない。
      Windows マシンで利用される漢字コードは、 「Shift-JISコード」に固定されているため、この様な混乱は少ない。 しかし、stat-system を含む UNIX マシンの場合は、 「EUC コード」や「JIS コード」が使われることが多く、 Windows マシンとデータを共有しようとすると、 漢字コードの変換を頭に入れて、 適宜変換しながら利用する必要がある。
      • Windows マシン : Shift-JIS コード
      • UNIX マシン : EUC コード, JIS コード

      stat-system 上の SAS に関して言えば、SAS の出力中の日本語は 「EUC コード」を使って表現されているので、 SAS の「計算結果」を Windows マシンに転送する時には、 「EUC コード」を「Shift-JIS コード」に変換する必要が生じる。
      また同様の理由で、ファイル名に漢字を使うのは避けるべきである。

    2. 操作手順
      1. 転送プログラム(FFFTP)の起動
        「スタート」→「プログラム(P)」→「stat システム」→「FFFTP」とクリックする。
      2. ホスト「stat-system」を選択し「接続」ボタンをクリックする。
      3. stat システム用の「ユーザー名 :」を入力する。
      4. stat システム用の「パスワード :」を入力する。
      5. 画面の左半分は Windows 側を、 右半分は stat-system 側のファイルを表示している。
      6. 転送元のドライブ、ファイルを指定する。
      7. 転送モードには 3種類ある。
        • 「A」は ASCII モード(文字型用、行末コード処理機能を利用する)
        • 「B」は Binary モード(非文字型用、行末コード処理機能を利用しない)
        • 「A/B」は ファイルの拡張子によって自動判定
      8. 漢字コードには 2種類ある。
        • 「EUC」は UNIX 側の漢字コードが EUC コード
        • 「JIS」は UNIX 側の漢字コードが JIS コード
        • 「無」は無変換
      9. ファイルを選択すると、左上にある灰色だった矢印キーが 青に変わってクリック可能となる。このキーで送受信を指定する。
        • 送信 : 上向き矢印、アップダウンロード、Windows から stat-system へ
        • 受信 : 下向き矢印、ダウンロード、stat-system から Winodws へ
      10. 終了は「接続(F)」→「終了(X)」をクリックする。

    3. Lesson 2-3 : ファイルの転送: Windows ===> stat システム(UNIX)
      • 転送元 : H:les0201.prn
      • 転送先 : 各自の stat システムのディレクトリ(正確にはホームディレクトリと呼ぶ)
      • 転送モードは「ASCII」を選択
      • 漢字コードは「EUC」を選択

    • [参考5] テキスト形式のファイル(*.prn)の場合は、 「ASCII モード」で転送したが、Excel 形式のファイル(*.xls)の場合は、 「Binary モード」で転送しないとファイルが壊れてしまう。
    • [参考6] 漢字を含まないファイルの転送であれば、 WS_FTP32 と言うソフトを使うこともできるが、 FFFTP を使えるのであれば敢えて両方を知っておく必要はないと思うので、 ここでは取り扱わない。詳しく知りたい場合は、NMC セミナー用テキストの「 WS_FTP32を使ったファイルの転送 」の項を参照のこと

  7. 転送されたデータの表示 : 確認のため。簡単な UNIX コマンド
    1. UNIX にログイン
      「スタート」→「プログラム(P)」→「stat システム」→「stat1」とクリックする。 (stat1 と 2, 3 はどれでも対等。混み具合いによって各自の判断で変更してよい)。
    2. 「login:」、「Password:」と表示されるので、 それぞれ個人のIDとパスワードを入力する。 なお、パスワードはセキュリティの都合上、画面には表示されない。
    3. UNIX の初歩のコマンド
      • ファイル名一覧の表示 : ls
      • ファイルの内容の表示 : cat [filename]
      • ログアウト : logout
    4. Lesson 2-4 : 転送されたファイルの確認
      転送したファイルが実際に存在し、ファイル内容も正しいことを確認せよ。
      • ls
      • cat les0201.prn
      • logout

  8. 宿題 : 5月16日にでも実習してください <=== 私は登校しない日
    今後各種データを SAS で解析できるようにしておきたいので、 以下のデータを電子化し stat システムに転送しておいて下さい。 データの形状(ケース数や変量数、データの内容)やファイル名を忘れないように 記録(メモ)を残す習慣を付けよう。
    1. 皆さんの体格、小遣い、携帯電話に関するデータ : 配布資料
    2. 連休中に収集してもらった各自の興味あるデータ(個人ごとに異なるはず)(複数がベター)
    3. [注意] データの電子化のためのコード化については、 Lesson 2-1 を参考にすること。

  9. 次回は、... : 4月25日 14:45
    • (今週の残り)
    • SAS を使ってみよう
    • 簡単なデータの特性を明らかにしてみよう
    • (興味あるデータの特性を明らかにしてみよう)

  10. [おまけ、蛇足] HTML 形式のメールは避ける
    受講上の注意 でも言いましたが、是非 HTML 形式のメールを私に送るのは遠慮ください。 特に Microsoft Outlook Express のユーザーは注意が必要です。 このソフトは、設定を変更せずに使うと メールの後半に HTML 形式のメールも引っ付けて送信してしまうようです。
    同じメール内容が異なった形式で 2回入っている(テキスト形式と HTML 形式)のです。 情報伝達という意味では 1回で十分ですので、後半を削るべく設定をお願いします。
    以下に参考になると思われる URL リストのページを挙げておきますので、 参考にしてください。解らなければ質問してください。 [DIR]講義のホームページへ戻ります