/* Lesson 12-1 */
/* File Name = les1201.sas 12/17/08 */
data gakusei;
infile 'all08ce.prn'
firstobs=2;
input sex $ shintyou taijyuu kyoui
jitaku $ kodukai carryer $ tsuuwa;
if sex^='M' & sex^='F' then delete;
if kodukai>=200000 then delete; : 社会人学生とおぼしき者を除外
proc print data=gakusei(obs=10);
run;
proc plot data=gakusei; : 散布図を描く
plot shintyou*taijyuu; : 散布図の変量を指定(縦軸、横軸の順)
plot taijyuu*shintyou; :
run: :
proc corr data=gakusei; : 相関係数(相関行列)を計算
run: :
SAS システム 2
13:48 Tuesday, December 16, 2008
プロット : SHINTYOU*TAIJYUU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 50 オブザベーションが欠損値です.)
SHINTYOU |
200 +
|
| A A B A A A
180 + A BECGDEBHA C B A A A
| CAJELIVSLIDHEDBBBC
| AFAGJJHGBCDFAAA AA A A
160 + ADEHEJFDBADB
| A ECBEEEA A A
| A BAA
140 +
---+-----------+-----------+-----------+-----------+--
20 40 60 80 100
TAIJYUU
SAS システム 3
13:48 Tuesday, December 16, 2008
プロット : TAIJYUU*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 50 オブザベーションが欠損値です.)
100 + B
| A A A
TAIJYUU | A A AAA A B B B A
| B B DBDDF ECGBD DCI B BB
| A AA AEAB CCECG KEUJMBLGFGE CAECB A A
50 + AAB CACGC EEJBH FBEFG DABDC BC
| A A B D BA BA
|
|
|
0 +
--+-----------+-----------+-----------+-----------+-----------+-
140 150 160 170 180 190
SHINTYOU
SAS システム 4
13:48 Tuesday, December 16, 2008
Correlation Analysis
5 'VAR' Variables: SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
SHINTYOU 382 167.8 8.2930 64117.7 145.0 188.0
TAIJYUU 343 58.9534 9.3369 20221.0 35.0000 100.0
KYOUI 115 86.6348 7.5618 9963.0 56.0000 112.0
KODUKAI 367 44820.2 41260.9 16449000 0 180000
TSUUWA 173 6612.3 4375.1 1143932 0 30000.0
SAS システム 5
13:48 Tuesday, December 16, 2008
Correlation Analysis
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
/ Number of Observations
SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
SHINTYOU 1.00000 0.70594 0.41886 0.03226 0.05213
0.0 0.0001 0.0001 0.5423 0.4996
382 343 115 359 170
TAIJYUU 0.70594 1.00000 0.65897 0.01313 0.03574
0.0001 0.0 0.0001 0.8141 0.6599
343 343 115 323 154
KYOUI 0.41886 0.65897 1.00000 -0.05315 -0.13017
0.0001 0.0001 0.0 0.5813 0.4113
115 115 115 110 42
KODUKAI 0.03226 0.01313 -0.05315 1.00000 0.24584
0.5423 0.8141 0.5813 0.0 0.0014
359 323 110 367 167
TSUUWA 0.05213 0.03574 -0.13017 0.24584 1.00000
0.4996 0.6599 0.4113 0.0014 0.0
170 154 42 167 173
[注意] 相関行列は細切れに表示されるので、 不要部分を削除することによって整形しレポート等に使うこと。
[補足] 上のプログラムでは小遣い額が20万円以上の者を
除外したが、除外せずに実行するとどのような結果が得られるであろうか?
「小遣い額と胸囲」、「小遣い額と通話料金」の相関係数の部分に注目せよ。
少数例(ここでは6例)の影響で相関係数が大きく変化していることに注意せよ。
KODUKAI 0.07398 0.01594 -0.26650 1.00000 0.68375
0.1584 0.7733 0.0042 0.0 0.0001
365 329 114 373 168
/* Lesson 12-2 */
/* File Name = les1202.sas 12/17/08 */
data gakusei;
infile 'all08ce.prn'
firstobs=2;
input sex $ shintyou taijyuu kyoui
jitaku $ kodukai carryer $ tsuuwa;
if sex^='M' & sex^='F' then delete;
proc print data=gakusei(obs=10);
run;
proc reg data=gakusei; : 回帰分析
model taijyuu=shintyou; : 変量を指定
output out=outreg1 predicted=pred1 residual=resid1; : 結果項目の保存
run; :
:
proc print data=outreg1(obs=15); : 表示してみる
run; :
:
proc plot data=outreg1; : 散布図を描く
plot taijyuu*shintyou/vaxis=20 to 100 by 20; : 体重と身長(縦軸指定)
plot pred1*taijyuu; : 予測値と観測値
plot resid1*pred1 /vref=0; : 残差と予測値(残差解析)(水平軸指定)
plot resid1*shintyou/vref=0; : 残差と説明変数(残差解析)
plot resid1*taijyuu /vref=0; : 残差と目的変数(残差解析)
run; :
:
proc univariate data=outreg1 plot normal; : 残差を正規プロットして確かめる
var resid1; :
run; :
[補足] proc plot
の下に以下の行を追加した方がより正確ではある。
欠損値を含むデータを解析対象から除外する事を指示する命令文である。
「欠損値です」の表示が無くなるだけで、得られる図は同じ(欠損値は描画できないから)。
試しに追加する/しないの両方で実行してみよ。
where shintyou^=. and taijyuu^=.;
SAS システム 2
13:46 Tuesday, December 16, 2008
Model: MODEL1
Dependent Variable: TAIJYUU
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 1 14977.39021 14977.39021 329.883 0.0001
Error 347 15754.52171 45.40208
C Total 348 30731.91192
Root MSE 6.73811 R-square 0.4874
Dep Mean 58.95129 Adj R-sq 0.4859
C.V. 11.42996
SAS システム 3
13:46 Tuesday, December 16, 2008
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 -77.971483 7.54730643 -10.331 0.0001
SHINTYOU 1 0.811137 0.04465954 18.163 0.0001
SAS システム 4
13:46 Tuesday, December 16, 2008
S
H T K C
I A J O A T R
N I K I D R S P E
T J Y T U R U R S
O S Y Y O A K Y U E I
B E O U U K A E W D D
S X U U I U I R A 1 1
1 F 145.0 38.0 . J 10000 . 39.6434 -1.6434
2 F 146.7 41.0 85 J 10000 Vodafone 6000 41.0224 -0.0224
3 F 148.0 42.0 . J 50000 . 42.0768 -0.0768
4 F 148.0 43.0 80 J 50000 DoCoMo 4000 42.0768 0.9232
5 F 148.9 . . J 60000 . 42.8069 .
6 F 149.0 45.0 . G 60000 . 42.8880 2.1120
7 F 150.0 46.0 86 40000 . 43.6991 2.3009
8 F 150.0 . . J 10000 softbank 80 43.6991 .
9 F 151.0 45.0 . J 20000 docomo 5000 44.5103 0.4897
10 F 151.0 50.0 . G 60000 J-PHONE . 44.5103 5.4897
11 F 151.7 41.5 80 J 35000 . 45.0781 -3.5781
12 F 152.0 35.0 77 J 60000 DoCoMo 2000 45.3214 -10.3214
13 F 152.0 43.0 . J 20000 au 3500 45.3214 -2.3214
14 F 152.0 44.0 . 45000 DoCoMo 4000 45.3214 -1.3214
15 F 153.0 41.0 . J 125000 No . 46.1325 -5.1325
SAS システム 6
13:46 Tuesday, December 16, 2008
プロット : TAIJYUU*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 50 オブザベーションが欠損値です.)
TAIJYUU |
100 + B
| A A A
80 + A A AAA B B B B A
| B B DBDDF ECGBD DCI B BB
60 + A AA AEAB CCECG KEUJMBMGFGE CBECB A A
| AAB CACGC EEJBI FBEGG DABDC BC A
40 + A A B D BA BA
|
20 +
|
--+-----------+-----------+-----------+-----------+-----------+-
140 150 160 170 180 190
SHINTYOU
SAS システム 7
13:46 Tuesday, December 16, 2008
プロット : PRED1*TAIJYUU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 50 オブザベーションが欠損値です.)
80 +
| A
PRED1 | A A B A A A
| AA BDADFBB I BA A A A A
| ABBCCCNIEECIBB A BC A
60 + CGDMHHJNEKBBADBBC A A
| AH FHDIADCAAE A A
| BCFEFHACAACA
| DABDDBEA AA A
| A BBCA A
40 + A A
---+------------+------------+------------+------------+--
20 40 60 80 100
TAIJYUU
SAS システム 8
13:46 Tuesday, December 16, 2008
プロット : RESID1*PRED1. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 50 オブザベーションが欠損値です.)
|
R 50 +
e |
s | A
i 25 + A A A A
d | A B BAAA BA A
u | A A AA ABABBBB BDBCDEDBB ACA A AA
a 0 +--------------AABAAACCBDGCCDJCEECFDIIFSIKJHIEECBK-A-AB-----------
l | AA BAB C DB CGDDADGFCCDFBDBCBBAA
| A A A
-25 +
---+-----------+-----------+-----------+-----------+-----------+--
30 40 50 60 70 80
Predicted Value of TAIJYUU
SAS システム 9
13:46 Tuesday, December 16, 2008
プロット : RESID1*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 50 オブザベーションが欠損値です.)
|
R 50 +
e |
s | A
i 25 + A A A A
d | A B BAA A B A A
u | A A AA ABAB BBB B DBCDE DBB A CA A AA
a 0 +--------A-A-BAAAC-DBCGC-CDKBE-ECFDI-JESGLAJHIEE-CBK-A--AB--------
l | A A BA BAB D B CFE DADGEADBDDD DBCBB AA
| A A A
-25 +
---+-----------+-----------+-----------+-----------+-----------+--
140 150 160 170 180 190
SHINTYOU
SAS システム 10
13:46 Tuesday, December 16, 2008
プロット : RESID1*TAIJYUU. 凡例: A = 1 OBS, B = 2 OBS, ...
(NOTE: 50 オブザベーションが欠損値です.)
|
R 50 +
e |
s | A
i 25 + A A A A
d | A BCBC A
u | A ABADCBKBECGBCA B A A
a 0 +--------------A-DBEEFGOLESGLVVIOEJ-HA--------------------
l | A CABDL ENGIEEHCDB
| A A A
-25 +
---+------------+------------+------------+------------+--
20 40 60 80 100
TAIJYUU
SAS システム 11
13:46 Tuesday, December 16, 2008
Univariate Procedure
Variable=RESID1 Residual
Moments
N 349 Sum Wgts 349
Mean 0 Sum 0
Std Dev 6.728418 Variance 45.27161
Skewness 1.292627 Kurtosis 3.428403
USS 15754.52 CSS 15754.52
CV . Std Mean 0.360164
T:Mean=0 0 Pr>|T| 1.0000
Num ^= 0 349 Num > 0 151
M(Sign) -23.5 Pr>=|M| 0.0137
Sgn Rank -3571.5 Pr>=|S| 0.0582
W:Normal 0.926973 Pr<W 0.0001
SAS システム 15
13:46 Tuesday, December 16, 2008
Univariate Procedure
Variable=RESID1 Residual
Histogram # Boxplot
35+* 1 *
.** 5 0
.***** 19 0
.******************************** 126 +--+--+
.************************************************ 189 *-----*
-15+*** 9 |
----+----+----+----+----+----+----+----+----+---
* may represent up to 4 counts
SAS システム 16
13:46 Tuesday, December 16, 2008
Univariate Procedure
Variable=RESID1 Residual
Normal Probability Plot
35+ *
| *****
| *******++++
| ++**************
| **********************
-15+******+++++
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2
[注意] 誤差は「説明変量」の軸と垂直に取ることに注意せよ。 誤差は測定時に混入していると考えてモデルが構築されているから。
[注意] 「正規性を乱している者は何でも除外してかまわない」というわけではない。 今回の場合は、元データに戻ったところ、体育会系のずんぐりした者であったため、 普通の大学生とは異なる性質を有していると判断し除外対象とした。 除外する場合にはその根拠を明確にしないと、「恣意的な解析」と言われかねないことに注意せよ。
/* Lesson 12-3 */
/* File Name = les1203.sas 12/17/08 */
data gakusei;
infile 'all08ce.prn'
firstobs=2;
input sex $ shintyou taijyuu kyoui
jitaku $ kodukai carryer $ tsuuwa;
if sex^='M' & sex^='F' then delete;
if shintyou=. | taijyuu=. then delete; : 欠損値データを除外
proc print data=gakusei(obs=10);
run;
proc corr data=gakusei;
where taijyuu<85; : 対象データを絞る
run;
proc reg data=gakusei;
model taijyuu=shintyou;
where taijyuu<85; : 対象データを絞る
output out=outreg1 predicted=pred1 residual=resid1;
run;
proc print data=outreg1(obs=15);
run;
proc plot data=outreg1;
where taijyuu<85; : 対象データを絞る
plot taijyuu*shintyou;
plot taijyuu*pred1;
plot resid1*(pred1 shintyou taijyuu)/vref=0; : まとめて指定することも可
run;
proc univariate data=outreg1 plot normal;
var resid1;
run;
SAS システム 2
13:46 Tuesday, December 16, 2008
Correlation Analysis
5 'VAR' Variables: SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
SHINTYOU 344 168.7 8.0236 58018.1 145.0 188.0
TAIJYUU 344 58.4724 8.5544 20114.5 35.0000 84.0000
KYOUI 115 85.6783 7.8624 9853.0 46.0000 110.0
KODUKAI 324 50091.0 56636.6 16229500 0 500000
TSUUWA 154 7273.7 7371.8 1120152 0 80000.0
SAS システム 3
13:46 Tuesday, December 16, 2008
Correlation Analysis
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0
/ Number of Observations
SHINTYOU TAIJYUU KYOUI KODUKAI TSUUWA
SHINTYOU 1.00000 0.71424 0.28515 0.07165 0.07556
0.0 0.0001 0.0020 0.1983 0.3517
344 344 115 324 154
TAIJYUU 0.71424 1.00000 0.37169 0.03782 -0.00486
0.0001 0.0 0.0001 0.4976 0.9523
344 344 115 324 154
KYOUI 0.28515 0.37169 1.00000 -0.27544 -0.12792
0.0020 0.0001 0.0 0.0036 0.4254
115 115 115 110 41
KODUKAI 0.07165 0.03782 -0.27544 1.00000 0.71489
0.1983 0.4976 0.0036 0.0 0.0001
324 324 110 324 148
TSUUWA 0.07556 -0.00486 -0.12792 0.71489 1.00000
0.3517 0.9523 0.4254 0.0001 0.0
154 154 41 148 154
SAS システム 6
13:46 Tuesday, December 16, 2008
Model: MODEL1
Dependent Variable: TAIJYUU
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 1 12804.27573 12804.27573 356.153 0.0001
Error 342 12295.45192 35.95161
C Total 343 25099.72765
Root MSE 5.99597 R-square 0.5101
Dep Mean 58.47238 Adj R-sq 0.5087
C.V. 10.25436
SAS システム 7
13:46 Tuesday, December 16, 2008
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 -69.956922 6.81295152 -10.268 0.0001
SHINTYOU 1 0.761481 0.04034974 18.872 0.0001
SAS システム 10
13:46 Tuesday, December 16, 2008
プロット : TAIJYUU*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
TAIJYUU |
100 +
|
| A A
75 + A B BBC B C B CA A A
| BC B DBICEAEDGDD CCMAB BA
| A AA AEAB CADCG JEOJLALFEEE CAABA A A
50 + AA CACGB DEHBH FBEGG DABDC BC A
| A A BA AC BA BB A B A
| A
25 +
--+-----------+-----------+-----------+-----------+-----------+-
140 150 160 170 180 190
SHINTYOU
SAS システム 11
13:46 Tuesday, December 16, 2008
プロット : TAIJYUU*PRED1. 凡例: A = 1 OBS, B = 2 OBS, ...
TAIJYUU |
100 +
|
| A A
75 + A BBBCAACAACA A A
| BC BFHDEFDGDDCELB BA
| A AAAEABCADDFONKLLGEGCCACAA A
50 + AA CACGFDHCHFBEHFEBDC BC A
| AABA ACBA CB B A
| A
25 +
---+-----------+-----------+-----------+-----------+--
40 50 60 70 80
Predicted Value of TAIJYUU
SAS システム 12
13:46 Tuesday, December 16, 2008
プロット : RESID1*PRED1. 凡例: A = 1 OBS, B = 2 OBS, ...
|
R 40 +
e |
s |
i 20 + A A A A
d | A A AAABC AC BA A
u | A B B AABBBBBABFAHDDDBD AB A
a 0 +---AA-BAAABBDGACDHCEEAFCIFGKHKKGGEECBK-A-AB--------------
l | A BABBB E DBBCFECBEFDDCBDDCBBCBAA
| A AA C A A A
-20 +
---+------------+------------+------------+------------+--
40 50 60 70 80
Predicted Value of TAIJYUU
SAS システム 13
13:46 Tuesday, December 16, 2008
プロット : RESID1*SHINTYOU. 凡例: A = 1 OBS, B = 2 OBS, ...
|
R 40 +
e |
s |
i 20 + A A A A
d | A A AAABC A C B A A
u | A B B ABAB BBBAB FAICD DBD BA A
a 0 +--------A-A-BAAAB-BACGA-CDIBE-EAFCI-HELGKAJHFEE-CBK-A--AB--------
l | A BA BB BAD D BBCFE DAEFDADBBDD CBCBB AA
| A AA C A A A
-20 +
---+-----------+-----------+-----------+-----------+-----------+--
140 150 160 170 180 190
SHINTYOU
SAS システム 14
13:46 Tuesday, December 16, 2008
プロット : RESID1*TAIJYUU. 凡例: A = 1 OBS, B = 2 OBS, ...
|
R 40 +
e |
s |
i 20 + A B A
d | A AAAB CB BCA A
u | B A A B AE DFDJBAGAEB AB
a 0 +----------A--AABABDADGGEFEEMFEJCUFODEGECD-H-A--------------------
l | ADAACDEI BBFGFEFDDAHC DAA
| A C BAA A
-20 +
---+---------+---------+---------+---------+---------+---------+--
30 40 50 60 70 80 90
TAIJYUU
SAS システム 15
13:46 Tuesday, December 16, 2008
Univariate Procedure
Variable=RESID1 Residual
Moments
N 344 Sum Wgts 344
Mean 0 Sum 0
Std Dev 5.98722 Variance 35.8468
Skewness 0.771849 Kurtosis 0.965765
USS 12295.45 CSS 12295.45
CV . Std Mean 0.322809
T:Mean=0 0 Pr>|T| 1.0000
Num ^= 0 344 Num > 0 150
M(Sign) -22 Pr>=|M| 0.0203
Sgn Rank -2586 Pr>=|S| 0.1615
W:Normal 0.955554 Pr<W 0.0001
SAS システム 18
13:46 Tuesday, December 16, 2008
Univariate Procedure
Variable=RESID1 Residual
Histogram # Boxplot
22.5+* 2 0
.** 4 0
.****** 16 0
.************** 40 |
.****************************** 88 +--+--+
.********************************************** 136 *-----*
.***************** 49 |
-12.5+*** 9 |
----+----+----+----+----+----+----+----+----+-
* may represent up to 3 counts
SAS システム 19
13:46 Tuesday, December 16, 2008
Univariate Procedure
Variable=RESID1 Residual
Normal Probability Plot
22.5+ *
| ****
| *******++++
| *******+
| ++********
| *************
| **********+
-12.5+******+++
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2