講義全般の紹介

コンピュータによる統計解析 06 クラス : 第1回 (10/03/07)

 初回である今回は、講義の概要や進め方について述べた後、 SAS を使う動機付けと、SAS を使うために必要な事項について紹介する。 各自の学習目的と合致する講義であるかを吟味いただきたい。
  1. 講義をはじめるにあたって : 別ページ      .
    1. 講義を行う前に
        [補足] 受講上の注意
    2. 素朴な疑問

  2. 講義の概要 : 2007年度シラバス検索

  3. 開講日程 : 半期の計画

  4. コンタクトの方法

  5. 参考書の紹介
    1. 市川伸一他著、SAS によるデータ解析入門[第2版]、東大出版会、ISBN4-13-064048-8、3570円
    2. 高橋行雄他著、SAS による実験データ解析入門、東大出版会、ISBN4-13-064044-5、4410円
    3. Geoff Der 他, A Handbook of Statistical Analyses Using SAS, Chapman & Hall/CRC, ISBN158488245X, 6456円

    4. ダレル・ハフ著(高木秀玄訳)、統計でウソをつく法、講談社ブルーバックス、ISBN4-06-117720-6、924円
    5. David Salsburg著(竹内・熊谷訳)、統計学を拓いた異才たち、 日本経済新聞社、ISBN4-532-35194-4、2200円+税。

    6. 永田靖・棟近雅彦著、多変量解析法入門、サイエンス社、ISBN4-7810-0980-9、2310円

    7. 前川眞一著、SAS による多変量データの解析、東大出版会、ISBN4-13-064043-7、4830円
    8. 豊田秀樹著、SAS による共分散構造分析、東大出版会、ISBN4-13-064042-9、3990円
    9. 豊田秀樹他著、原因をさぐる統計学、講談社ブルーバックス、 ISBN4-06-132926-X、945円

  6. SAS を使うには : MNC のシステム概要
     講義で実習する SAS は stat システムという計算機上で稼働しており、 このシステムにログインして利用することになる。 このシステムには、UNIX という OS が使われており、 Windows 環境とは異なった操作体系を修得する必要がある。
     しかし幸い、SAS だけを使うことを考えた場合、UNIX の知識はほとんど必要なく、 Windows 環境からあたかも Windowsを使っているかのように (DOSと言った方がより近い) stat システムを操作・利用することができる。
     つまり、電子化したデータを SAS で解析するには、 stat システムに持って行く(送信という)必要がある。 また、stat システムにはプリンタが接続されていないので、 出力に関してもstat システムから Windows に転送する必要がある。

     これらをまとめると、以下のようになる。

    1. 電源の投入、パソコンの起動
    2. ポータルシステムへのログイン : アカウントが必要
        講義室のパソコン(計算機)を使うために(Windows)

      =====[[[ この講義ではこれ以降を取り扱う ]]]=====

    3. statシステムへのログイン : 講義受講者には別途 id を用意
      • SAS がインストールされているマシン(UNIX)
      • データやプログラムは残る : 講義期間内

    4. ファイル転送 : 教室のパソコンと stat システムの間で
      • 入力データファイル
      • 出力結果ファイル : stat システム側にプリンタがない

    5. SAS を利用 : 統計用ソフトウェア
      • プログラムの作成、デバッグ
      • 出力結果の読み方、解析結果の理解

    6. レポート作成
      • データの素姓、解析動機、使用手法、...
      • 何が判った? 解った? 発見した?

    [参考1] MNC セミナー用テキスト : 統計システム入門 (UNIX で使うSAS)
             (http://www.mnc.waseda.ac.jp/ssguide/semisas5/index.html)
    [参考2] stat システムは学外からも利用可能である。


  7. Excel じゃダメなの? : 表計算ソフトウェア(Excel 等)から統計解析ソフトへ : 作業手順から眺める
    アンケートの集計 : 目の前に紙の山 ===> さあどうする?
    1. まず電子化
      • 入力作業
      • 場合によってはコード化

    2. スクリーニング
      • 入力ミスの修正
      • 地味だが非常に重要な作業、重労働 <=== チェック方法

    3. 基礎集計 by Excel(表計算ソフト)
      • 組み込み関数を使って : average, min, max, median, ...
        計算 図示、...

    4. 表計算ソフトの限界 <=== Excel で統計処理を全てこなせるか?
      • 大量データになったら?
      • 複雑な統計手法になったら? 多変量解析...
      • 欠損値の取り扱い
      • 統計向けソフトウエアの利用が一般的 : データ解析
        • BMDP : BioMedical Data Programs(?)
        • SPSS : Statistical Package for Social Science
        • SAS : Statistical Analysis System
        • S, S-PLUS, (R) : Statistical
        • LISP-STAT : Lisp で実現、フリーソフト
        • Statistica
        • ...
      • [参考] SAS での解析例

  8. [わき道] アンケートの設計
    1. 調査の目的を明確に
    2. 集計方法や予想される回答を予想して設計すべき
    3. 質問項目や選択肢の吟味、予備調査
    4. 解析方法も事前に想定しておく
    5. 設計の善し悪しによって得られる結果の質も変わる

  9. 講義をはじめるにあたって(続き) : 別ページ
    1. 素朴な疑問 : 回答
    2. 興味あるデータを見つけてこよう
        [補足]
      • データ収集 : 講義期間中。いくつでも。
      • 自分の興味に合致したデータを見つけてくる
      • 各自、電子化して使う === > 次々節参照
        [参考] The Data and Story Library : データの説明と数値を紹介したサイト
                 (http://lib.stat.cmu.edu/DASL/)

  10. アンケート(調査) : 講義に使用
    1. 学部、学年、学籍番号、氏名
    2. 家にインターネット接続環境を持ってる/持ってない
       *携帯電話での接続は除く。プロバイダ、大学経由等。
    3. データ収集:実習用目的で使用
       3a. 性別、身長、体重、胸囲
       3b. 小遣い(自宅生)/仕送り(下宿生)の別と、その額
          *一ヶ月あたりに自分が自由に使える金額、除家賃等の意。
       3c. 携帯電話・PHSの所持有無、キャリアー(電話会社)、月平均通話料
    1. 「統計」に抱くイメージや印象
    2. 受講動機
    3. 講義内容についての要望、取り上げてほしい統計手法
    4. 講義開始時刻 : 13:00?, 13:05?, 13:10? or later
    5. 質問、その他何でも。他にML用メールアドレス等。

  11. 次回は、... : 10月10日 13:10 (遅刻は認めない)

  12. [おまけ、蛇足] HTML 形式のメールは避ける
     受講上の注意 にも書いておきましたが、是非 HTML 形式(MIME 形式とも言う)のメールを 私に送るのは遠慮ください。 特に Microsoft Outlook (Express を含む) のユーザーは注意が必要です。 このソフトは、設定を変更せず(defaultで)に使うと メールの後半に HTML 形式のメールも引っ付けて送信してしまうようです。
     同じメール内容が異なった形式で 2回入っている(テキスト形式と HTML 形式)のです。 情報伝達という意味では 1回で十分ですので、後半を削るべく設定をお願いします。
     以下に参考になると思われる URL リストのページを挙げておきますので、 参考にしてください。解らなければ質問してください。
[DIR]講義のホームページへ戻ります