/* Lesson 10-1 */
/* File Name = les1001.sas 12/05/07 */
data gakusei;
infile 'all07be.prn'
firstobs=2;
input sex $ shintyou taijyuu kyoui
jitaku $ kodukai carryer $ tsuuwa;
if sex^='M' & sex^='F' then delete;
if kodukai>=250000 then delete; : 社会人学生とおぼしき者を除外
proc print data=gakusei(obs=10);
run;
proc plot data=gakusei; : 散布図を描く
plot shintyou*taijyuu; : 散布図の変量を指定(縦軸、横軸の順)
plot taijyuu*shintyou; :
run: :
proc corr data=gakusei; : 相関係数(相関行列)を計算
run: :
SAS システム 2
18:48 Tuesday, December 4, 2007
プロット : SHINTYOU*TAIJYUU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 47 オブザベーションが欠損値です.)
SHINTYOU |
200 +
|
| A B A A
180 + A BECFDEBGA B B A A A
| CAIELIVQLHDHEDB BC
| AFAGJJHFBCDEAA AA A A
160 + ADFHDIFDBACB
| A ECBEDEA A A
| A BAA
140 +
---+-----------+-----------+-----------+-----------+--
20 40 60 80 100
TAIJYUU
SAS システム 3
18:48 Tuesday, December 4, 2007
プロット : TAIJYUU*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 47 オブザベーションが欠損値です.)
100 + B
| A A
TAIJYUU | A A A A B B A A
| A B CBDDE ECGBD DCH B BB
| A AA AE B CBECG KESJMBMGFFE CADCB A
50 + AAB CACFC EEIBI EBEFG DABCC BC
| A A B D BA BA
|
|
|
0 +
--+-----------+-----------+-----------+-----------+-----------+-
140 150 160 170 180 190
SHINTYOU
SAS システム 4
18:48 Tuesday, December 4, 2007
Correlation Analysis
5 'VAR' Variables: SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
SHINTYOU 362 167.8 8.1970 60732.1 145.0 186.0
TAIJYUU 326 58.6436 9.2493 19117.8 35.0000 100.0
KYOUI 112 86.5268 7.5301 9691.0 56.0000 112.0
KODUKAI 348 45867.8 43184.0 15962000 0 200000
TSUUWA 152 6478.8 4416.3 984782 0 30000.0
SAS システム 5
18:48 Tuesday, December 4, 2007
Correlation Analysis
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
/ Number of Observations
SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
SHINTYOU 1.00000 0.71091 0.40562 0.03914 0.01050
0.0 0.0001 0.0001 0.4719 0.8988
362 326 112 340 149
TAIJYUU 0.71091 1.00000 0.66821 0.00491 -0.03055
0.0001 0.0 0.0001 0.9317 0.7241
326 326 112 307 136
KYOUI 0.40562 0.66821 1.00000 -0.07028 -0.15335
0.0001 0.0001 0.0 0.4698 0.3580
112 112 112 108 38
KODUKAI 0.03914 0.00491 -0.07028 1.00000 0.23740
0.4719 0.9317 0.4698 0.0 0.0038
340 307 108 348 147
TSUUWA 0.01050 -0.03055 -0.15335 0.23740 1.00000
0.8988 0.7241 0.3580 0.0038 0.0
149 136 38 147 152
[注意] 相関行列は細切れに表示されるので、 不要部分を削除することによって整形しレポート等に使うこと。
[補足] 上のプログラムでは小遣い額が25万円以上の者を
除外したが、除外せずに実行するとどのような結果が得られるであろうか?
「胸囲と小遣い額」の相関係数の部分に注目せよ。少数例(ここでは3例)の影響で
相関係数が大きく変化していることに注意せよ。
SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
KODUKAI 0.06134 0.03913 -0.27188 1.00000 0.23740
0.2572 0.4925 0.0039 0.0 0.0038
343 310 111 351 147
[式(a)]
1次元正規分布 N(0,1)
[式(b)]
2次元正規分布 N({0,0},{1,1}, ρ=0.0)
[式(c)]
2次元正規分布 N({0,0},{1,1}, ρ=0.7)
[式(d)]
2次元正規分布 N({0,0},{1,1}, ρ=0.7)、x+y=2 で切り出し
/* Lesson 10-2 */
/* File Name = les1002.sas 12/05/07 */
data gakusei;
infile 'all07be.prn'
firstobs=2;
input sex $ shintyou taijyuu kyoui
jitaku $ kodukai carryer $ tsuuwa;
if sex^='M' & sex^='F' then delete;
proc print data=gakusei(obs=10);
run;
proc reg data=gakusei; : 回帰分析
model taijyuu=shintyou; : 変量を指定
output out=outreg1 predicted=pred1 residual=resid1; : 結果項目の保存
run; :
:
proc print data=outreg1(obs=15); : 表示してみる
run; :
:
proc plot data=outreg1; : 散布図を描く
plot taijyuu*shintyou/vaxis=20 to 100 by 20; : 体重と身長(縦軸指定)
plot pred1*taijyuu; : 予測値と観測値
plot resid1*pred1 /vref=0; : 残差と予測値(残差解析)(水平軸指定)
plot resid1*shintyou/vref=0; : 残差と説明変数(残差解析)
plot resid1*taijyuu /vref=0; : 残差と目的変数(残差解析)
run; :
:
proc univariate data=outreg1 plot normal; : 残差を正規プロットして確かめる
var resid1; :
run; :
[補足] proc plot
の下に以下の行を追加した方がより正確ではある。
欠損値を含むデータを解析対象から除外する事を指示する命令文である。
「欠損値です」の表示が無くなるだけで、得られる図は同じ(欠損値は描画できないから)。
試しに追加する/しないの両方で実行してみよ。
where shintyou^=. and taijyuu^=.;
SAS システム 2
18:48 Tuesday, December 4, 2007
Model: MODEL1
Dependent Variable: TAIJYUU
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 1 14211.93433 14211.93433 323.880 0.0001
Error 327 14348.83667 43.88023
C Total 328 28560.77100
Root MSE 6.62422 R-square 0.4976
Dep Mean 58.69240 Adj R-sq 0.4961
C.V. 11.28633
SAS システム 3
18:48 Tuesday, December 4, 2007
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 -79.483658 7.68654934 -10.341 0.0001
SHINTYOU 1 0.819352 0.04552796 17.997 0.0001
SAS システム 4
18:48 Tuesday, December 4, 2007
S
H T K C
I A J O A T R
N I K I D R S P E
T J Y T U R U R S
O S Y Y O A K Y U E I
B E O U U K A E W D D
S X U U I U I R A 1 1
1 F 145.0 38.0 . J 10000 . 39.3223 -1.3223
2 F 146.7 41.0 85 J 10000 Vodafone 6000 40.7152 0.2848
3 F 148.0 42.0 . J 50000 . 41.7804 0.2196
4 F 148.0 43.0 80 J 50000 DoCoMo 4000 41.7804 1.2196
5 F 148.9 . . J 60000 . 42.5178 .
6 F 149.0 45.0 . G 60000 . 42.5997 2.4003
7 F 150.0 46.0 86 40000 . 43.4191 2.5809
8 F 150.0 . . J 10000 softbank 80 43.4191 .
9 F 151.0 45.0 . J 20000 docomo 5000 44.2384 0.7616
10 F 151.0 50.0 . G 60000 J-PHONE . 44.2384 5.7616
11 F 151.7 41.5 80 J 35000 . 44.8120 -3.3120
12 F 152.0 35.0 77 J 60000 DoCoMo 2000 45.0578 -10.0578
13 F 152.0 43.0 . J 20000 au 3500 45.0578 -2.0578
14 F 152.0 44.0 . 45000 DoCoMo 4000 45.0578 -1.0578
15 F 153.0 41.0 . J 125000 No . 45.8771 -4.8771
SAS システム 6
18:48 Tuesday, December 4, 2007
プロット : TAIJYUU*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 47 オブザベーションが欠損値です.)
TAIJYUU |
100 + B
| A A
80 + A A A B B B A A
| A B CBDDE ECGBD DCH B BB
60 + A AA AE B CBECG KESJMBMGFFE CBDCB A
| AAB CACFC EEIBI EBEGG DABCC BC
40 + A A B D BA BA
|
20 +
|
--+-----------+-----------+-----------+-----------+-----------+-
140 150 160 170 180 190
SHINTYOU
SAS システム 7
18:48 Tuesday, December 4, 2007
プロット : PRED1*TAIJYUU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 47 オブザベーションが欠損値です.)
80 +
|
PRED1 | A A B A A
| A BDACFBB H B A A A A
| ABBCCCNHEECIBB A BC A
60 + CGCMHHIMEIBBADBBA A A
| AH EHDIACCAAE A
| BAFCDHACAABA
| BABEDCEA A A
| A CACB B A
40 + A BA
---+------------+------------+------------+------------+--
20 40 60 80 100
TAIJYUU
SAS システム 8
18:48 Tuesday, December 4, 2007
プロット : RESID1*PRED1. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 47 オブザベーションが欠損値です.)
|
R 50 +
e |
s | A A
i 25 + A A A
d | A B B A BA A
u | A A A AB BBBB BCBDDEDBB ABA A A
a 0 +-------------A-ABAAACCCCGBDDJBEEBFDIJEPJJJHIDECBJ-A-AB-----------
l | AA BAAABACA CGDDADEFDBDFBCBBBBAA
| A A
-25 +
---+-----------+-----------+-----------+-----------+-----------+--
30 40 50 60 70 80
Predicted Value of TAIJYUU
SAS システム 9
18:48 Tuesday, December 4, 2007
プロット : RESID1*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 47 オブザベーションが欠損値です.)
|
R 50 +
e |
s | A A
i 25 + A A A
d | A B B A B A A
u | A A A AB B BBB B CBDDE DBB A BA A A
a 0 +--------A-A-BAAAC-DBCFC-DDJBE-EBFDI-JEPHKAJHIDE-CBJ-A--AB--------
l | A A BA AAB D A CFE DADEEADBDDD CBBBB AA
| A A
-25 +
---+-----------+-----------+-----------+-----------+-----------+--
140 150 160 170 180 190
SHINTYOU
SAS システム 10
18:48 Tuesday, December 4, 2007
プロット : RESID1*TAIJYUU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 47 オブザベーションが欠損値です.)
|
R 50 +
e |
s | A A
i 25 + A A A
d | A BABC A
u | A ABACBBKBECGBC B A
a 0 +--------------A-DBEFFFNLESHKUTIMEJ-GA--------------------
l | A CABCL DNEIDEHCCB
| A A
-25 +
---+------------+------------+------------+------------+--
20 40 60 80 100
TAIJYUU
SAS システム 11
18:48 Tuesday, December 4, 2007
Univariate Procedure
Variable=RESID1 Residual
Moments
N 329 Sum Wgts 329
Mean 0 Sum 0
Std Dev 6.61411 Variance 43.74645
Skewness 1.4286 Kurtosis 4.032247
USS 14348.84 CSS 14348.84
CV . Std Mean 0.364648
T:Mean=0 0 Pr>|T| 1.0000
Num ^= 0 329 Num > 0 143
M(Sign) -21.5 Pr>=|M| 0.0204
Sgn Rank -3332.5 Pr>=|S| 0.0535
W:Normal 0.916143 Pr<W 0.0001
SAS システム 15
18:48 Tuesday, December 4, 2007
Univariate Procedure
Variable=RESID1 Residual
Histogram # Boxplot
35+* 1 *
.** 5 0
.**** 16 0
.******************************* 121 +--+--+
.********************************************* 179 *-----*
-15+** 7 |
----+----+----+----+----+----+----+----+----+
* may represent up to 4 counts
SAS システム 16
18:48 Tuesday, December 4, 2007
Univariate Procedure
Variable=RESID1 Residual
Normal Probability Plot
35+ *
| *****
| *******++++
| ++**************
| ***********************
-15+***+*+++++
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2
[注意] 誤差は「説明変量」の軸と垂直に取ることに注意せよ。 誤差は測定時に混入していると考えてモデルが構築されているから。
[注意] 「正規性を乱している者は何でも除外してかまわない」というわけではない。 今回の場合は、元データに戻ったところ、体育会系のずんぐりした者であったため、 普通の大学生とは異なる性質を有していると判断し除外対象とした。 除外する場合にはその根拠を明確にしないと、「恣意的な解析」と言われかねないことに注意せよ。
/* Lesson 10-3 */
/* File Name = les1003.sas 12/05/07 */
data gakusei;
infile 'all07be.prn'
firstobs=2;
input sex $ shintyou taijyuu kyoui
jitaku $ kodukai carryer $ tsuuwa;
if sex^='M' & sex^='F' then delete;
if shintyou=. | taijyuu=. then delete; : 欠損値データを除外
proc print data=gakusei(obs=10);
run;
proc corr data=gakusei;
where taijyuu<85; : 対象データを絞る
run;
proc reg data=gakusei;
model taijyuu=shintyou;
where taijyuu<85; : 対象データを絞る
output out=outreg1 predicted=pred1 residual=resid1;
run;
proc print data=outreg1(obs=15);
run;
proc plot data=outreg1;
where taijyuu<85; : 対象データを絞る
plot taijyuu*shintyou;
plot taijyuu*pred1;
plot resid1*(pred1 shintyou taijyuu)/vref=0; : まとめて指定することも可
run;
proc univariate data=outreg1 plot normal;
var resid1;
run;
SAS システム 2
18:48 Tuesday, December 4, 2007
Correlation Analysis
5 'VAR' Variables: SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
SHINTYOU 325 168.5 8.0147 54775.5 145.0 186.0
TAIJYUU 325 58.2655 8.5361 18936.3 35.0000 84.0000
KYOUI 112 85.6964 7.9388 9598.0 46.0000 110.0
KODUKAI 306 48887.3 51570.8 14959500 0 350000
TSUUWA 136 6643.4 4448.0 903502 0 30000.0
SAS システム 3
18:48 Tuesday, December 4, 2007
Correlation Analysis
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
/ Number of Observations
SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
SHINTYOU 1.00000 0.72936 0.28999 0.06466 -0.04590
0.0 0.0001 0.0019 0.2595 0.5957
325 325 112 306 136
TAIJYUU 0.72936 1.00000 0.38835 0.06549 -0.03055
0.0001 0.0 0.0001 0.2534 0.7241
325 325 112 306 136
KYOUI 0.28999 0.38835 1.00000 -0.27985 -0.15335
0.0019 0.0001 0.0 0.0034 0.3580
112 112 112 108 38
KODUKAI 0.06466 0.06549 -0.27985 1.00000 0.27086
0.2595 0.2534 0.0034 0.0 0.0018
306 306 108 306 131
TSUUWA -0.04590 -0.03055 -0.15335 0.27086 1.00000
0.5957 0.7241 0.3580 0.0018 0.0
136 136 38 131 136
SAS システム 6
18:48 Tuesday, December 4, 2007
Model: MODEL1
Dependent Variable: TAIJYUU
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 1 12558.66468 12558.66468 367.110 0.0001
Error 323 11049.66935 34.20950
C Total 324 23608.33403
Root MSE 5.84889 R-square 0.5320
Dep Mean 58.26554 Adj R-sq 0.5305
C.V. 10.03833
SAS システム 7
18:48 Tuesday, December 4, 2007
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 -72.657395 6.84079156 -10.621 0.0001
SHINTYOU 1 0.776806 0.04054286 19.160 0.0001
SAS システム 10
18:48 Tuesday, December 4, 2007
プロット : TAIJYUU*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
TAIJYUU |
100 +
|
| A A
75 + A B BAB B C B BA A A
| BB B CBICDAEDGDD CCKAB BA
| A AA AE B C DCG JEMJLALFEDE CAABA A
50 + AA CACFB DEGBH EBEGG DABCC BC
| A A BA AC BA BB A B A
| A
25 +
--+-----------+-----------+-----------+-----------+-----------+-
140 150 160 170 180 190
SHINTYOU
SAS システム 11
18:48 Tuesday, December 4, 2007
プロット : TAIJYUU*PRED1. 凡例: A = 1 OBS, B = 2 OBS, ...
TAIJYUU |
100 +
|
| A A
75 + A B BABAACAABA A A
| BBBCBHDDFDGDDCCKC BA
| A AA AE BC DJHGMJLLGEFCCABBA
50 + AABBCFBDEGCGEBENCBBCC BC
| A ABA BD ABBA B A
| A
25 +
---+-----------+-----------+-----------+-----------+--
40 50 60 70 80
Predicted Value of TAIJYUU
SAS システム 12
18:48 Tuesday, December 4, 2007
プロット : RESID1*PRED1. 凡例: A = 1 OBS, B = 2 OBS, ...
|
R 40 +
e |
s |
i 20 + A A A A
d | A AAAAB AC BA A
u | A B B AE BBBBABEBHDCDBD B A
a 0 +--A-ABAAABACCFACDDCEE-FCIFFJGKKGGDECBJ-A-AB--------------
l | AB BBB E DABCFECBEEDDCBDDCBACBAA
| A AA C A
-20 +
---+------------+------------+------------+------------+--
40 50 60 70 80
Predicted Value of TAIJYUU
SAS システム 13
18:48 Tuesday, December 4, 2007
プロット : RESID1*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
|
R 40 +
e |
s |
i 20 + A A A A
d | A AAAAB A C B A A
u | A B B AE B BBBAB EBICC DBD AA A
a 0 +--------A-A-BAAAB-BBCFA-CDEBE-E-FCI-HDJGKAJHFDE-CBJ-A--AB--------
l | A B BB BAD D ABCFE DAEEDADBBDD CBBBB AA
| A AA C A
-20 +
---+-----------+-----------+-----------+-----------+-----------+--
140 150 160 170 180 190
SHINTYOU
SAS システム 14
18:48 Tuesday, December 4, 2007
プロット : RESID1*TAIJYUU. 凡例: A = 1 OBS, B = 2 OBS, ...
|
R 40 +
e |
s |
i 20 + A B A
d | A A AB C BCA A
u | B A D B AD EFDHBAGAEB AA
a 0 +----------A--AABBBDADFGDFEEJFEICTFLDEGECD-G-A--------------------
l | ADA CDEI ABFGEEFDDAHC CAA
| A C B A
-20 +
---+---------+---------+---------+---------+---------+---------+--
30 40 50 60 70 80 90
TAIJYUU
SAS システム 15
18:48 Tuesday, December 4, 2007
Univariate Procedure
Variable=RESID1 Residual
Moments
N 325 Sum Wgts 325
Mean 0 Sum 0
Std Dev 5.839856 Variance 34.10392
Skewness 0.831229 Kurtosis 1.183718
USS 11049.67 CSS 11049.67
CV . Std Mean 0.323937
T:Mean=0 0 Pr>|T| 1.0000
Num ^= 0 325 Num > 0 143
M(Sign) -19.5 Pr>=|M| 0.0349
Sgn Rank -2432.5 Pr>=|S| 0.1516
W:Normal 0.954137 Pr<W 0.0001
SAS システム 18
18:48 Tuesday, December 4, 2007
Univariate Procedure
Variable=RESID1 Residual
Histogram # Boxplot
22.5+* 2 0
.** 4 0
.***** 13 0
.************* 38 |
.***************************** 86 +--+--+
.******************************************* 128 *-----*
.**************** 47 |
-12.5+*** 7 |
----+----+----+----+----+----+----+----+---
* may represent up to 3 counts
SAS システム 19
18:48 Tuesday, December 4, 2007
Univariate Procedure
Variable=RESID1 Residual
Normal Probability Plot
22.5+ *
| ****
| *****+++++
| ********+
| ++********
| ************
| ***********+
-12.5+****+*++
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2