[Lesson 3-1] : データの電子化 : 小泉内閣の資産公開資料のデータを電子化せよ。
[データ] 第1次小泉内閣の閣僚資産データ(2001年5月29日発表)
Name | Sex | Goukei | Tochi | Yotyokin | Kashituke | Kariire |
Koizumi | M | 5012 | 3052 | 1960 | 0 | 731 |
Katayama | M | 7874 | 1371 | 6502 | 0 | 2697 |
Moriyama | F | 12606 | 6907 | 5699 | 0 | 0 |
Tanaka | F | 74940 | 31739 | 43201 | 0 | 0 |
Shiokawa | M | 56561 | 54336 | 2225 | 7500 | 0 |
Touyama | F | 24146 | 10901 | 13245 | 0 | 2200 |
Sakaguchi | M | 2601 | 451 | 2150 | 0 | 140 |
Takebe | M | 5084 | 2796 | 2288 | 0 | 549 |
Hiranuma | M | 4723 | 451 | 223 | 0 | 12682 |
Ohogi | F | 19554 | 18354 | 1200 | 7102 | 36000 |
Kawaguchi | F | 13550 | 1490 | 12060 | 0 | 0 |
Fukuda | M | 8089 | 7272 | 817 | 1130 | 7600 |
Murai | M | 6492 | 1669 | 4823 | 0 | 260 |
Nakatani | M | 1620 | 0 | 1620 | 0 | 0 |
Omi | M | 3278 | 3278 | 0 | 1800 | 1764 |
Yanagisawa | M | 5375 | 2475 | 2900 | 0 | 2205 |
Takenaka | M | 2808 | 2651 | 157 | 9475 | 10456 |
Ishihara | M | 5932 | 2347 | 3585 | 0 | 3230 |
[入力画面]
入力画面(拡大)
[Lesson 3-2] : データの保存 :
演習で入力したデータを SAS で使うことを考慮して
テキスト形式で保存せよ。
この後の説明を簡単にするために、ここでは、ドライブ名に「H:」、
ファイル名に「naikaku01」を指定したとして説明を進める
(naikaku01.prn)。
[補足] また stat システム(UNIX)では、
漢字のファイル名や空白を含むファイル名は取り扱いが面倒なので、
「スペースを含まない英数字で」ファイル名を付けることを勧める。
[参考1] 上記ではテキスト形式(*.prn)での保存を
紹介したが、Excel の標準形式(*.xls)でも保存しておくことを勧める
(つまり二通りの形式で保存しておくのが良いと思う)。
上記で指摘したように、列幅が足らない状態をテキスト形式で保存すると、
ファイル上で隣同士のセルがくっついてしまい、
以後手作業を行わないと分離できなくなってしまうからである。
Excel の標準形式でも保存してあれば、
このファイルを使って幅を再修正し、テキスト形式で再保存することが可能となる。
[参考2] H: ドライブは電源を切ると内容が消されてしまう。
バックアップ用に FD や MO を利用すること。
また、メールに添付したり、stat システムに転送してしまう(後述)という手もある。
[参考3] SAS に読み込ませるデータの形式として、
「テキスト(スペース区切り)」以外に「テキスト(タブ区切り)」、
「カンマ区切り(CSV 形式)」等も利用可能であるが、これらについては後日紹介する。
[参考4] データの電子化。私の場合。
stat システム上の SAS に関して言えば、SAS の出力中の日本語は
「EUC コード」を使って表現されているので、
SAS の「計算結果」を Windows マシンに転送する時には、
「EUC コード」を「Shift-JIS コード」に変換する必要が生じる。
また同様の理由で、ファイル名に漢字を使うのは避けるべきである。
[Lesson 3-3] : ファイルの転送: Windows ===> stat システム(UNIX)
[参考5] テキスト形式のファイル(*.prn)の場合は、
「ASCII モード」で転送したが、Excel 形式のファイル(*.xls)の場合は、
「Binary モード」で転送しないとファイルが壊れてしまう。
[参考6] 漢字を含まないファイルの転送であれば、
WS_FTP32 と言うソフトを使うこともできるが、
FFFTP を使えるのであれば敢えて両方を知っておく必要はないと思うので、
ここでは取り扱わない。詳しく知りたい場合は、NMC セミナー用テキストの「
WS_FTP32を使ったファイルの転送
」の項を参照のこと
[Lesson 3-4] : 転送されたファイルの確認
転送したファイルが実際に存在し、ファイル内容も正しいことを確認せよ。
/* Lesson 3-5 */ : /* File Name = les0305.sas 10/16/03 */ : : data naikaku; : SAS 内でのデータ名の定義 infile 'naikaku01.prn' : データの入っているファイル名の指定 firstobs=2; : データ 2行目から入っている input name $ sex $ goukei; : 読み込む変量名 : proc print data=naikaku; : データの表示 run; : proc means data=naikaku; : 平均、標準偏差、最大最小値の算出 run; :
SAS システム 1 20:00 Wednesday, October 15, 2003 OBS NAME SEX GOUKEI 1 Koizumi M 5012 2 Katayama M 7874 3 Moriyama F 12606 4 Tanaka F 74940 5 Shiokawa M 56561 6 Touyama F 24146 7 Sakaguch M 2601 8 Takebe M 5084 9 Hiranuma M 4723 10 Ohogi F 19554 11 Kawaguch F 13550 12 Fukuda M 8089 13 Murai M 6492 14 Nakatani M 1620 15 Omi M 3278 SAS システム 2 20:00 Wednesday, October 15, 2003 OBS NAME SEX GOUKEI 16 Yanagisa M 5375 17 Takenaka M 2808 18 Ishihara M 5932 SAS システム 3 20:00 Wednesday, October 15, 2003 Analysis Variable : GOUKEI N Mean Std Dev Minimum Maximum ---------------------------------------------------------- 18 14458.06 19845.53 1620.00 74940.00 ----------------------------------------------------------
[Lesson 3-6] : Windows 側で読み出せるか、実際に転送してみよ。