補足説明と実習

統計処理 01 クラス : 第9回(06/14/01)

前回までに、統計の初歩のテクニックを説明してきた。 そこでこれまでのコマンドを使って、複数のデータに対して解析を行い、 レポートにまとめてもらいたい。 今回は、補足説明を行った後、質問を受ける時間にする。
  1. 基礎統計量の説明(修正分)
    第6回 の第2節に掲載した「基礎統計量の説明」について、 一部訂正したので、再度全体的に掲載しておく。 第6回の配布資料の当該部分には、こちらを参照するように 書き込んでおいてもらうとありがたい。


    1. 算出統計量の説明 : 分布形状を把握するのに利用
      • Variable : 変量名
      • N : サンプルサイズ、測定個数
      • Mean : 平均、μで示すことが多い
        加重和をサンプル数で割ったもの
      • Std Dev : 標準偏差(Standard Deviation)、σで示すことが多い
        ばらつきを示す指標、正規分布の場合、3σにほぼ全数が含まれる
      • Minimum & Maximum : 最小値と最大値
      • Variance : 分散、標準偏差の二乗
        σとならんで、ばらつきを示す指標
      • Quantiles : 四分位数
        下位から、0%点(Q0、最小値)、25%点(Q1)、
        50%点(Q2、Median、中央値、中位値)、75%点(Q3)、100%点(Q4 最大値)
      • 範囲(Range) : 最大値(Max)-最小値(Min)
      • 四分偏差 : Q3-Q1
      • Mode : 最頻値
      • Extremes : 最上位と最下位の数サンプル
        端点、異常値の検出に使う
      • Stem Leaf : 樹葉図、Stem and Leaf
        頻度分布、樹木になぞらえて。頻度だけでなく構成値も解る
        時刻表にも似ている

      • Box Plot : 箱髭図
        分布形状を見る。異常値の検出に。
        箱 : 下端、中央線、上端は、それぞれ 25%点(Q1)、
        50%点(Q2、Median、中央値、中位値)、75%点(Q3)。
        プラス(+) は平均値。* は最頻値。
        髭 : 箱からの距離が、
        1.5x[四分偏差] の範囲内にあるサンプルまで伸ばされる。
        髭の外側にサンプルがある場合、
        0(3.0x[四分偏差] の範囲内) や
        *(それより外側) で表示。異常値の可能性。
      • Normal Probability Plot : 正規確率プロット
        分布が正規分布かどうかを確かめる
        + が基準線、* が対象データ。ずれていると正規性が疑われる。


    なお、 総務省 統計局・統計センター が公表している「 平成12年貯蓄動向調査結果(要約)(http://www.stat.go.jp/data/chochiku/2.htm) 」には、勤労者世帯の貯蓄高を例に、基礎統計量の説明があったので紹介しておく。 特に、ここでは一つの図だけを引用しておくが、詳しくは本文を参照されたい。







    貯蓄現在高回級別世帯分布(勤労者世帯) グラフ 貯蓄現在高回級別世帯分布(勤労者世帯)

  2. レポートの作成
    SAS の「計算結果(Output エリアの内容)」は、 それをファイルに保存(file コマンド)後、Windows マシンに転送して、利用する。 計算結果は全部を引用するのではなく、必要部分だけを切り出し、 説明を付与する事によって完成せよ。
    UNIX マシン上でレポートを作成することも不可能ではないが、 日本語の入力方法の問題や、プリンタが接続されていない事等があるので、 現実的には教室の Windows マシン(や個人所有のパソコン)で 処理するのが妥当であろう。 そのためには「転送」の処理が中間に介在する必要がある。

  3. ffftp を使ったファイルの送受信 : データの送受信
    第2回 の第7節で WS_FTP32を使ったファイルの転送を紹介したが、 このツールは漢字コードを含むファイルの転送には対応していなかった。 しかし、今年度になって、漢字コードにも対応したツールとして ffftp が用意されたので、このソフトウェアの使い方を説明する。 なお、これはフリーソフトである。

    1. [背景] 漢字コードについて
      漢字コードには幾つかの体系があって、異なったコード体系間では 変換を行わないと正常には読み出せない。
      Windows マシンで利用される漢字コードは、 「Shift-JISコード」に固定されているため、この様な混乱は少ない。 しかし、stat-system を含む UNIX マシンの場合は、 「EUC コード」や「JIS コード」が使われることが多く、 Windows マシンとデータを共有しようとすると、 漢字コードの変換を頭に入れて、 適宜変換しながら利用する必要がある。
      • Windows マシン : Shift-JIS コード
      • UNIX マシン : EUC コード, JIS コード

      stat-system 上の SAS に関して言えば、SAS の出力中の日本語は 「EUC コード」を使って表現されているので、 SAS の「計算結果」を Windows マシンに転送する時には、 「EUC コード」を「Shift-JIS コード」に変換する必要が生じる。
      また同様の理由で、ファイル名に漢字を使うのは避けるべきである。

    2. 操作手順
      1. 転送プログラム(ffftp)の起動
        「スタート」→「プログラム(P)」→「stat システム」→「ffftp stat-system」とクリックする。
      2. ホストを選択し「接続」ボタンをクリックする。 : stat-system
      3. 「ユーザー名 :」を入力する。
      4. 「パスワード :」を入力する。
      5. 画面の左半分は Windows 側を、 右半分は stat-system 側のファイルを表示している。
      6. 転送元のドライブ、ファイルを指定する。
      7. 転送モードには 3種類ある。
        • 「A」は ASCII モード(文字型用、行末コード処理機能を利用する)
        • 「B」は Binary モード(非文字型用、行末コード処理機能を利用しない)
        • 「A/B」は ファイルの拡張子によって自動判定
      8. 漢字コードには 2種類ある。
        • 「EUC」は UNIX 側の漢字コードが EUC コード
        • 「JIS」は UNIX 側の漢字コードが JIS コード
        • 「無」は無変換
      9. ファイルを選択すると、左上にある灰色だった矢印キーが 青に変わってクリック可能となる。このキーで送受信を指定する。
        • 下向き矢印がダウンロード(stat-system から Winodws へ)
        • 上向き矢印がアップダウンロード(Windows から stat-system へ)
      10. 終了は「接続(F)」→「終了(X)」をクリックする。

    3. [例1] : ファイルの受信 : stat-system (UNIX) ===> Windows
      • 転送元 : les0801.lst
      • 転送先 : H:les0801.lst
      • 転送モードは「ASCII」を選択
      • 漢字コードは「EUC」を選択

    4. [例2] : ファイルの送信 : Windows ===> stat-system (UNIX)
      • 転送元 : H:koizumi.prn
      • 転送先 : 各自の stat-system のディレクトリ(正確にはホームディレクトリと呼ぶ)
      • 転送モードは「ASCII」を選択
      • 漢字コードは「EUC」を選択

    5. [補足] : 漢字が含まれてなければ WS_FTP32 と ffftp は同じ
      ffftp を使って stat システムに接続することについて、 学外からは接続できないことが、現在のところ判明している。 その際は、WS_FTP32 を使うしか方法がない。 ただ、転送データに漢字コードが含まれていない場合は、 どちらのツールを使っても転送されるものは同じものである。

  4. WS_FTP32 しか使わない場合
    学外から ffftp を使って stat システムに接続することができない以上、 学外からは WS_FTP32 を使うしか方法がない。 また、学内においても WS_FTP32 を使わざるを得ない場合もあるであろう。 そのような場合は、どのような方策が考えられるであろうか?

    1. 漢字を含んだものを送受信しない
      消極的な方法だが、WS_FTP32 が漢字コード変換の機能を持っていない以上、 漢字コードの変換を行わないような使い方を心掛けるのがベターであろう。

    2. レポート作成に関して : 化け文字は特定エリアのみ
      SAS の「計算結果(Output エリアの内容)」を Windows 側に転送して(ASCII モードで)、 レポート作成を行うのだが、 変量名や対象データに漢字コードが含まれていない場合、 「計算結果」の中で文字が化けるのは、実は「システム」と言う単語だけである。 (以下参照)

      本来の出力(各ページの先頭部分)

      >>                SAS システム                             3
      >>                              11:57 Thursday, June 7, 2001
      

      化けてしまった出力(各ページの先頭部分)

      >>                SAS ・キ・ケ・ニ・`                             3
      >>                              11:57 Thursday, June 7, 2001
      

      「システム」と言う部分以外の出力については、化けることもなく そのまま使え、また、化けている部分はレポートには必要ないので、 この部分だけを削除(無視)して使うのが、一つの方法であろう。

    3. 学内で転送する
      ffftp が使えないのは学外からだけなので、 予め学内で ffftp を使って漢字コードの変換を含めた転送をし、 FD や MO に保存して自宅に持ち帰る。 もしくは、転送されたものを自分宛てのメールに 貼付けて自宅で受け取りレポート作成を行う。

    [補足] WS_FTP の説明として 「WS_FTP LE」全機能解説(http://www.k-ueda.com/) と言う Web ページがあるので、必要なら参考にされたい。

  5. UNIX 上の漢字コード変換ツール : nkf
    少し手間のかかる方法だが、UNIX 上のコード変換ツール nkf を使う方法もある (ネットワーク用漢字フィルター(Network Kanji Filter))。 具体的には、UNIX コマンドが使える状態で、以下の操作を行うことにより、 EUC コードで記述された「les0801.lst」が 漢字コード変換されて、Shift-JIS コードの「les0801.sjs」と言う ファイルに保存される。なお、オプションの「-s」は 出力を「Shift-JIS コード」に変換することを指定するためのものである。 その他、オプションを知りたい場合は「nkf -v」とすれば、 help メッセージが表示される。 また、「>」は「左側のプログラムの出力を右側のファイルに保存する」と言う 命令(パイプ)出ある。

    nkf -s les0801.lst > les0801.sjs
    

  6. レコード長の指定 : 一部の人には関係があるかも
    SAS はシステム毎(UNIX, Windows, ...)に、 デフォルトで読み込める「1レコードのレコード長」が決められている。 それよりも長いデータを読み込もうとする場合は、 以下のようにしてレコード長(logical record length) を指定してやる必要がある。

    data kakuryou;
      infile 'koizumi.prn' lrecl=200;
    

  7. レポート提出 : これまでの演習を参考にして統計解析を行ってみよ。
    1. 対象データ : 以下の 1〜3 の中から 最低、2つ。
      1. 皆さんから収集したデータ(waseda01.prn)
      2. 連休中に収集してもらった興味あるデータ(個人ごとに異なる) : 2つ以上あるはず
      3. その他
    2. 提出期限 : 6月19日(火) 17:50 までに
    3. 電子メールで提出する場合の注意
      • 「添付ファイル(Attachment File)」を使わずに、 レポートをメール本体に組み込む形で送付すること。
      • 受領したら受領確認メールを必ず発行するので、 これを受け取った段階で、提出作業完了となる。 受領確認メールを受け取ってない人は、未提出扱いとなる。
    4. その他の注意事項については 第8回(前回) の第5節を参照せよ。

  8. お願い
    • 質問をした方は、回答が的確であったかどうか、対処結果を報告下さい。

  9. 次回は、... : 6月21日 14:45
    • 頻度集計
    • グループごとの統計量
    • ...
[DIR]講義のホームページへ戻ります