IRTに基づかない | IRTに基づいて実施 | |
---|---|---|
PBT | ・大学入試センター試験 | ・TOEIC Listening & Reading Test |
・SAT | ||
・ACT | ||
CBT | ・統計検定 CBT方式試験 | ・TOEFL iBT |
・医療系大学間共用試験(医学部共用試験等) | ||
・SAT(開発中) | ||
・ACT(開発中) |
今回は、多変量解析の代表的な手法である回帰分析について解説する。
工学系や農学系の実験等を行う領域では頻繁に使用される手法であるが、 日常的な話題の中でも概念は広く利用されているので、 取っ付き易い手法ではないだろうか。 過去のデータからその構造を把握し、新規に測定されたデータに対する予測を 行ないたいと言うときに、回帰分析は有用である。 構造のシンプルな単回帰分析でこの手法の原理を理解し、 複数の説明変量を用いた重回帰分析に拡張する。 残差の取り方や、その二乗和を最少にするという考えは同じである。
散布図にもっともらしい「直線」を当てはめたい。
皆さんから収集した体格データを用いて、散布図を描いてみよう。どういう直線が「もっともらしい」と考えるか?
式の展開、解法。 直線の方程式:
測定値と予測値のズレ:
ズレの2乗の和を最小に:
[余談] 回帰分析では「2乗和」を最小にすることを考えるが、「絶対値和」とか「符号付き和(1乗和)」を最小にする方法もアイディアとしてはあり得る。 2乗和だと式の展開が楽になる。
Sunday, November 8, 2020 05:17:40 PM 143
Obs sex shintyou taijyuu kyoui jitaku kodukai carryer tsuuwa
1 F 145.0 38.0 . 自宅生 10000 .
2 F 146.7 41.0 85 自宅生 10000 Vodafone 6000
3 F 148.0 42.0 . 自宅生 50000 .
4 F 148.0 43.0 80 自宅生 50000 DoCoMo 4000
5 F 149.0 45.0 . 下宿生 60000 .
6 F 150.0 46.0 86 40000 .
7 F 151.0 45.0 . 自宅生 20000 docomo 5000
8 151.0 46.0 . 自宅生 0 6500
9 F 151.0 50.0 . 下宿生 60000 J-PHONE .
10 F 151.7 41.5 80 自宅生 35000 .
Sunday, November 8, 2020 05:17:40 PM 144
The REG Procedure
Model: MODEL1
Dependent Variable: taijyuu
Number of Observations Read 438
Number of Observations Used 438
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 17347 17347 346.83 <.0001
Error 436 21807 50.01691
Corrected Total 437 39155
Root MSE 7.07226 R-Square 0.4430
Dependent Mean 59.56621 Adj R-Sq 0.4418
Coeff Var 11.87294
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 -78.02833 7.39601 -10.55 <.0001
shintyou 1 0.81271 0.04364 18.62 <.0001
Sunday, November 8, 2020 05:17:43 PM 145
s
h t k c
i a j o a t r
n i k i d r s p e
t j y t u r u r s
O s y y o a k y u e i
b e o u u k a e w d d
s x u u i u i r a 1 1
1 F 145.0 38.0 . 自宅生 10000 . 39.8141 -1.8141
2 F 146.7 41.0 85 自宅生 10000 Vodafone 6000 41.1957 -0.1957
3 F 148.0 42.0 . 自宅生 50000 . 42.2522 -0.2522
4 F 148.0 43.0 80 自宅生 50000 DoCoMo 4000 42.2522 0.7478
5 F 149.0 45.0 . 下宿生 60000 . 43.0649 1.9351
6 F 150.0 46.0 86 40000 . 43.8776 2.1224
7 F 151.0 45.0 . 自宅生 20000 docomo 5000 44.6903 0.3097
8 151.0 46.0 . 自宅生 0 6500 44.6903 1.3097
9 F 151.0 50.0 . 下宿生 60000 J-PHONE . 44.6903 5.3097
10 F 151.7 41.5 80 自宅生 35000 . 45.2592 -3.7592
11 F 152.0 35.0 77 自宅生 60000 DoCoMo 2000 45.5030 -10.5030
12 F 152.0 43.0 . 自宅生 20000 au 3500 45.5030 -2.5030
13 F 152.0 44.0 . 45000 DoCoMo 4000 45.5030 -1.5030
14 F 153.0 41.0 . 自宅生 125000 No . 46.3158 -5.3158
15 F 153.0 42.0 . 下宿生 0 Vodafone 1000 46.3158 -4.3158
Sunday, November 8, 2020 05:17:43 PM 146
Plot of taijyuu*shintyou. Legend: A = 1 obs, B = 2 obs, etc.
100 + A
| A
| A
| A A
| A
| A A
| A A
80 + A A A
| A A AA AAAA
| B A AA AA A A
taijyuu | A AB EC BAACA G AA A
| A AB BCB B BA A A
| A AA B BB ACC ABA FCCB CBA AAA
| BAB A D CHD FCBABBC ACA AA
60 + A AA AA ABCAABFCACID DBCC ADA AA
| A A AA BADDAAFDACBA DCAA
| A B DC DCA FBIG BDB CBB F A
| A A AB A AC DEC BCCCAAAA BA A A
| BBAB CB CCBA
| AAB AB B B AB ABAA A
| B ABA A BA
40 + A A A
| A
| A
|
|
|
|
20 +
--+------------+------------+------------+------------+------------+--
140 150 160 170 180 190
shintyou
Sunday, November 8, 2020 05:17:43 PM 147
Plot of pred1*taijyuu. Legend: A = 1 obs, B = 2 obs, etc.
80 +
P |
r |
e |
d | A
i | A A A
c | A A
t 70 + AAA AA A AA A A A
e | A DA BBB A F A A
d | A AAC A BBAA ABA A A A A A A
| AAB DACAABBBB A A A B
V | A BAC BB CAAB CABB B A A A
a | A BB ABAICBCAAAACAAAB AA A A A A
l | BA CAADBBADBGAABA B CBB
u 60 + AA BCC DAG BEECA BAA A A A
e | A B BAAEBCAAA CA B AA
| AE A EBDEBABACA B A
o | A C CB AAEA B A ABB A
f | BA CFBBBA A B B AB A
| A BA A
t | B ABCC AA C AA A
a 50 + A B ABA A A A
i | AB AA CABA A
j | A B
y | A ABAA A A A
u | AB A
u | AA A
| A
40 + A
-+---------+---------+---------+---------+---------+---------+---------+-
30 40 50 60 70 80 90 100
taijyuu
Sunday, November 8, 2020 05:17:43 PM 148
Plot of resid1*shintyou. Legend: A = 1 obs, B = 2 obs, etc.
|
|
40 +
|
| A
| A
30 + A
| A A
|
| A A
R 20 + A A
e | A A A A
s | A A A A A
i | A A A AA A AAA
d 10 + A AA B AAB CB A A A A
u | A A A BA BA BB AB BBA A A
a | A A A A A A AFC BC AD ABA A A
l | AAA A A A CA AA BB CD BEA BB ACA BB G
0 +---------A-B---A--AAABD--A-AAB-CC-BDA-BAABFF-EC-BEC-CB----AA---A--A----
| A B A A AB CC DE BB HHBAD ABI EAAA CBA A A
| A B A B AB A CBAAFB AFDACBA EBAD ACA B A
| AB A B BA CA CAAAB AB BB AD AD A A
-10 + A A D BA A CA BF A A AA
| A A
| A A
|
-20 +
|
-+-------------+-------------+-------------+-------------+-------------+
140 150 160 170 180 190
shintyou
Sunday, November 8, 2020 05:17:43 PM 149
Plot of resid1*taijyuu. Legend: A = 1 obs, B = 2 obs, etc.
|
|
40 +
|
| A
| A
30 + A
| A A
|
| A A
R 20 + A A
e | A A A A
s | A A B A
i | A A A ABC
d 10 + A AC ABBD AA A A
u | A A AA BABDA BACAA A
a | A A A AA AEDAAG CBA AA
l | AB AA AAD CADAEFBBBCC G A
0 +-----------AAA-ABACAC-AEBFBACBIBIEAECB--AAAA---------------------------
| A AB A AECCFADJECDBKDBA DABA
| AB ABBB CBECDCFCF GABCCA A
| ABA BBAC CACAAC CCAFAA A
-10 + A A AF AAADCCA BA
| A A
| A A
|
-20 +
|
-+---------+---------+---------+---------+---------+---------+---------+
30 40 50 60 70 80 90 100
taijyuu
Sunday, November 8, 2020 05:17:43 PM 150
The UNIVARIATE Procedure
Variable: resid1 (Residual)
Moments
N 438 Sum Weights 438
Mean 0 Sum Observations 0
Std Deviation 7.06416668 Variance 49.9024508
Skewness 1.33449894 Kurtosis 3.49025643
Uncorrected SS 21807.371 Corrected SS 21807.371
Coeff Variation . Std Error Mean 0.33753894
Basic Statistical Measures
Location Variability
Mean 0.00000 Std Deviation 7.06417
Median -1.03812 Variance 49.90245
Mode -2.56988 Range 50.06353
Interquartile Range 7.68895
Note: The mode displayed is the smallest of 2 modes with a count of 6.
Tests for Location: Mu0=0
Test -Statistic- -----p Value------
Student's t t 0 Pr > |t| 1.0000
Sign M -29 Pr >= |M| 0.0064
Signed Rank S -5520.5 Pr >= |S| 0.0371
Sunday, November 8, 2020 05:17:44 PM 151
The UNIVARIATE Procedure
Variable: resid1 (Residual)
Tests for Normality
Test --Statistic--- -----p Value------
Shapiro-Wilk W 0.923698 Pr < W <0.0001
Kolmogorov-Smirnov D 0.08988 Pr > D <0.0100
Cramer-von Mises W-Sq 1.00375 Pr > W-Sq <0.0050
Anderson-Darling A-Sq 6.107932 Pr > A-Sq <0.0050
Quantiles (Definition 5)
Level Quantile
100% Max 34.61741
99% 27.43012
95% 12.80470
90% 8.86493
75% Q3 3.24282
50% Median -1.03812
25% Q1 -4.44612
10% -8.06823
5% -9.19530
1% -11.19530
0% Min -15.44612
Sunday, November 8, 2020 05:17:44 PM 152
The UNIVARIATE Procedure
Variable: resid1 (Residual)
Extreme Observations
------Lowest----- -----Highest-----
Value Obs Value Obs
-15.4461 393 27.4301 304
-14.1953 321 28.3666 390
-13.6652 418 28.9371 197
-11.7572 252 33.3666 391
-11.1953 323 34.6174 319
[この例] 1% 未満(0.01%) なので役に立っていると言える。
[この例] 44% 程(約半分)を説明できている。
[この例] a=-78.0, b=0.813
回帰係数の検定(係数=0 か?) : Pr > |t|) : 小さいと有意(係数=0ではないと言える)
[この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。
[この例] 残差には概ね傾向は見られない。 ただし体重の大きい 5例程度は要確認。場合によっては外れ値として除外も。