主成分分析

統計解析 02 クラス : 第14回 (07/10/08)

 いくつか(p個)の変量の値を情報の損失をできるだけ少なくして、 少数変量(m個、m<p)の総合的指標(主成分)で代表させる方法として 主成分分析(Principal Component Analysis, PCA)がある。 いくつかのテストの成績を総合した総合的成績、 いろいろな症状を総合した総合的な重症度、 種々の財務指標に基づく企業の評価 等を求めたいといった場合に用いられる。
 p変量(p次元)の観測値をm個(m次元)の主成分に縮約させるという意味で、 次元を減少させる方法ということもでき、 多変量データを要約する一つの有力な方法である。
  1. 2変量の場合の主成分分析 : 理解を助けるため
    1. 定式化 : 配布資料 54ページ〜
      • 重み(係数) : a1、a2
      • 合成変量(線形結合) : z
      • よく代表するように、a1 と a2 を決める。
      • より広がって測定できる軸に沿うと情報量が多い。
           [参考:立体の測定] ノギスノギスの使い方・目盛りの読み方
      • 全測定値の分散を最大化する軸を決定する。

    2. 身長と体重の総合指標を求めよう : プログラム : les1401.sas

       /* Lesson 14-1 */
       /*    File Name = les1401.sas   07/10/08   */
      
      data gakusei;
        infile 'all08ae.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc plot data=gakusei;                        : 散布図
        plot shintyou*taijyuu;                       : 元の変量のプロット
      run;                                           :
      proc princomp cov data=gakusei out=outprin;    : 主成分分析(分散共分散行列)
        var shintyou taijyuu;                        : 2変量
      run;                                           :
      proc print data=outprin(obs=15);               : 結果の出力
      run;                                           :
      proc plot data=outprin;                        : 散布図
        plot prin2*prin1/vref=0 href=0;              : 主成分得点のプロット
      run;                                           :
                                                     : 参考までに、
      proc sort data=outprin;                        : 説明のためにソートしてみる
        by prin1;                                    : 第一主成分で
      run;                                           :
      proc print data=outprin;                       : 体重がややが効いていることの確認
      run;                                           :
      

    3. 出力結果 : les1401.lst
      • 身長と体重の散布図
      • 各変量の平均、標準偏差、分散共分散行列
      • 固有値、比率(寄与率)、累積寄与率 : 解釈に使う
      • 固有ベクトル(係数a1とa2) : 解釈に使う
      • 主成分得点 : 各個人の得点(z)、2つある
      • 第1軸と第2軸の主成分得点の散布図
                                    SAS システム                             2
                                                   14:14 Tuesday, July 8, 2008
           プロット : SHINTYOU*TAIJYUU.  凡例: A = 1 OBS, B = 2 OBS, ...
                    (NOTE: 54 オブザベーションが欠損値です.)
          SHINTYOU |
               200 +
                   |
                   |                          A  A B A     A
               180 +                       A BFCGDEBGA C B      A  A  A
                   |                    CAJELIWRLHDHEDBABC  A
                   |                  AGAGJJHGCCDEAA  AA A     A
               160 +                ADFHEIFDBADB
                   |           A   ECBEEEA A   A
                   |             A BAA
               140 +
                   ---+-----------+-----------+-----------+-----------+--
                     20          40          60          80          100
                                           TAIJYUU
      
                                    SAS システム                             3
                                                   14:14 Tuesday, July 8, 2008
                            Principal Component Analysis
           341 Observations
             2 Variables
                                 Simple Statistics
      
                                    SHINTYOU           TAIJYUU
      
                      Mean       168.6885630       58.75601173
                      StD          8.0525819        9.28623272
      
                                    SAS システム                             4
                                                   14:14 Tuesday, July 8, 2008
                            Principal Component Analysis
      
                                 Covariance Matrix
      
                                      SHINTYOU           TAIJYUU
      
                    SHINTYOU       64.84407469       52.26114249
                    TAIJYUU        52.26114249       86.23411816
      
                           Total Variance = 151.07819286
      
                        Eigenvalues of the Covariance Matrix
      
                  Eigenvalue      Difference      Proportion      Cumulative
      
       PRIN1         128.883         106.689        0.853090         0.85309
       PRIN2          22.195            .           0.146910         1.00000
                                    SAS システム                             5
                                                   14:14 Tuesday, July 8, 2008
                            Principal Component Analysis
      
                                    Eigenvectors
      
                                         PRIN1         PRIN2
      
                        SHINTYOU      0.632262      0.774755
                        TAIJYUU       0.774755      -.632262
      
                                    SAS システム                             6
                                                   14:14 Tuesday, July 8, 2008
                 S
                 H      T             K    C
                 I      A       J     O    A            T
                 N      I    K  I     D    R            S      P         P
                 T      J    Y  T     U    R            U      R         R
        O   S    Y      Y    O  A     K    Y            U      I         I
        B   E    O      U    U  K     A    E            W      N         N
        S   X    U      U    I  U     I    R            A      1         2
      
         1  F  145.0  38.0   .  J   10000               .  -31.0582  -5.22960
         2  F  146.7  41.0  85  J   10000  Vodafone  6000  -27.6591  -5.80930
         3  F  148.0  42.0   .  J   50000               .  -26.0624  -5.43438
         4  F  148.0  43.0  80  J   50000  DoCoMo    4000  -25.2876  -6.06665
         5  F  148.9    .    .  J   60000               .     .        .     
         6  F  149.0  45.0   .  G   60000               .  -23.1059  -6.55641
         7  F  150.0  46.0  86      40000               .  -21.6988  -6.41392
         8  F  150.0    .    .  J   10000  softbank    80     .        .     
         9  F  151.0  45.0   .  J   20000  docomo    5000  -21.8413  -5.00690
        10  F  151.0  50.0   .  G   60000  J-PHONE      .  -17.9676  -8.16821
        11  F  151.7  41.5  80  J   35000               .  -24.1104  -2.25166
        12  F  152.0  35.0  77  J   60000  DoCoMo    2000  -28.9566   2.09047
        13  F  152.0  43.0   .  J   20000  au        3500  -22.7586  -2.96763
        14  F  152.0  44.0   .      45000  DoCoMo    4000  -21.9838  -3.59989
        15  F  153.0  41.0   .  J  125000  No           .  -23.6758  -0.92835
      
                                    SAS システム                             8
                                                   14:14 Tuesday, July 8, 2008
              プロット : PRIN2*PRIN1.  凡例: A = 1 OBS, B = 2 OBS, ...
                 (NOTE: 54 オブザベーションが欠損値です.)
             20 +                            |
                |                            |        A
          PRIN2 |                          A |  A
                |                         BB DACBBACDAA B
                |         A         D GBAFCDGHDFFHCBED  A A
              0 +-------------BBBBBCFCBJ-CHFHFFINDACGC-G-AA-----A---------
                |        A AAAABBACGCAADCB D CBCDDBCEE A AAA
                |            AAA AA  A A  C B|BA  A  AA AAB       A
                |                        A   |      AA A   A
                |                            |       A             A
            -20 +                            |              A         A
                ---+------------+------------+------------+------------+--
                  -40          -20           0           20           40
                                           PRIN1
      
                                    SAS システム                             9
                                                   14:14 Tuesday, July 8, 2008
                    S
                    H      T                 K      C
                    I      A         J       O      A              T
                    N      I    K    I       D      R              S    P    P
                    T      J    Y    T       U      R              U    R    R
       O     S      Y      Y    O    A       K      Y              U    I    I
       B     E      O      U    U    K       A      E              W    N    N
       S     X      U      U    I    U       I      R              A    1    2
      
        1    F    148.9    .    .    J     60000                   .    .    .
        2    F    150.0    .    .    J     10000    softbank      80    .    .
        3    F    153.0    .    .    G    120000    DoCoMo       200    .    .
      ≪中略≫                              SAS システム                            48
                                                   14:14 Tuesday, July 8, 2008
                  S
                  H     T              K  C
                  I     A      J       O  A           T
                  N     I   K  I       D  R           S       P         P
                  T     J   Y  T       U  R           U       R         R
         O   S    Y     Y   O  A       K  Y           U       I         I
         B   E    O     U   U  K       A  E           W       N         N
         S   X    U     U   I  U       I  R           A       1         2
      
       344  M  180.0  64.0   90  J   35000              .  11.2146    5.4480
       345  M  180.0  64.0   90  G   60000  au      10000  11.2146    5.4480
       346  M  179.0  65.0    .  J       0              .  11.3571    4.0410
       347  M  168.0  74.0    .  G  120000  DDIp    15000  11.3750  -10.1717
       348  M  178.0  66.0   95  J   30000  au       3000  11.4996    2.6340
       349  M  173.8  69.6   90  J   30000  DoCoMo  13000  11.6332   -2.8961
       350  M  177.0  67.0    .       4000  DoCoMo   8000  11.6421    1.2270
       351  M  180.0  65.0   88  J   30000              .  11.9893    4.8158
         352  M  180  65    .  G  100000              .  11.9893    4.8158
         353  M  179  66    .      30000              .  12.1318    3.4087
         354  M  168  75    .  G  150000              .  12.1498  -10.8039
         355  M  173  71  100  G       0              .  12.2120   -4.4011
         356  M  178  67    .  J       0              .  12.2743    2.0017
         357  M  172  72   89  G  150000              .  12.3545   -5.8081
         358  M  172  72    .  G   60000  au       3500  12.3545   -5.8081
         359  M  177  68    .  G   80000              .  12.4168    0.5947
        360  M  182.0  64   .  G       0                .  12.4791    6.9975
        361  M  165.0  78   .  G       0             2098  12.5772  -15.0250
        362  M  170.0  74  90  J       0                .  12.6395   -8.6221
        363  M  175.0  70  95  G   50000             8000  12.7018   -2.2193
        364  M  178.0  68   .  J  100000  DoCoMo     4000  13.0491    1.3695
        365  M  188.0  60   .  J       0  au            .  13.1737   14.1751
        366  M  171.0  75  80  J       .  DoCoMo    13000  14.0465   -8.4797
        367  M  184.0  65   .  G  140000  au        10000  14.5184    7.9148
       368  M  170.0  78.0   .      45000  Vodafone  10000  15.7385  -11.1512
       369  M  179.9  70.0   .  J   15000  DoCoMo      700  15.7999    1.5770
       370  M  175.0  74.0   .  J       0                .  15.8008   -4.7484
       371  M  180.0  70.0  94  G   70000  au         5000  15.8631    1.6545
       372  M  180.0  70.0   .  J   40000  au         4000  15.8631    1.6545
       373  M  180.0  70.0   .          .                .  15.8631    1.6545
       374  M  180.0  70.0   .  J   40000  DoCoMo     6500  15.8631    1.6545
       375  M  180.0  70.0   .       5000             3000  15.8631    1.6545
       376  M  178.7  71.2   95          0              .  15.9709   -0.1114
       377  M  173.5  76.5    .  G  100000              .  16.7893   -7.4912
       378  M  184.0  68.0   85      30000              .  16.8427    6.0180
       379  M  182.0  70.0   90  G  100000              .  17.1276    3.2040
       380  M  185.0  68.0   93  J       0              .  17.4749    6.7927
       381  M  175.0  77.0   95  G  130000              .  18.1251   -6.6452
       382  M  178.0  75.0    .  G   60000  DoCoMo  10000  18.4724   -3.0564
       383  M  179.1  74.2    .          0  au       4000  18.5481   -1.6983
         384  M  175.0   79.0    .  J       0  No     0  19.6746   -7.9097
         385  M  176.5   78.0   96  J   10000         .  19.8482   -6.1153
         386  M  177.0   78.0    .  J   40000         .  20.1644   -5.7279
         387  M  181.5   74.5    .  G  120000  au  3000  20.2979   -0.0286
         388  M  185.0   72.0    .  J   30000      7000  20.5739    4.2637
         389  M  178.0   78.0  110  G   50000         .  20.7966   -4.9532
         390  M  173.0   84.0   46  G  350000         .  22.2839  -12.6205
         391  M  169.3   88.5   94  J       0         .  23.4309  -18.3323
         392  M  186.0   82.0    .  J       0         .  28.9538   -1.2842
         393  M  182.0   90.0  100  J   40000         .  32.6227   -9.4413
         394  M  178.0   95.0    .       1000  No     .  33.9675  -15.7016
         395  M  178.0  100.0  112  G   60000         .  37.8412  -18.8629
      

    4. 解釈方法
      • 寄与率 : その軸がどの程度説明力を持っているか : 第1軸だけで十分(85.3%)。第2軸に含まれる説明力は小さい(14.7%)。
      • 固有ベクトル : その軸の特徴を示している : 身長と体重の重みはほぼ同等だが、体重がやや大きめに効いている(第1軸)
      • 主成分得点と散布図 : 各個人がどこに付置されているか
      • 第1軸 : 全体的な体格の指標。身長と体重を足したような指標。

  2. 3変量以上の主成分分析
    1. 定式化 : 資料 71ページ〜
      • 2変量の拡張
      • 合成変量(線形結合) : z
      • 合成変量の分散を最大化する軸を決定する。

    2. 身長、体重、胸囲での総合指標を求めてみよう : プログラム : les1402.sas

       /* Lesson 14-2 */
       /*    File Name = les1402.sas   07/10/08   */
      
      data gakusei;
        infile 'all08ae.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=10);
      run;
      
      proc princomp cov data=gakusei out=outprin;    : 主成分分析(分散共分散行列)
        var shintyou taijyuu kyoui;                  : 3変量
      run;                                           :
      proc print data=outprin(obs=15);               : 結果の出力
      run;                                           :
      proc plot data=outprin;                        : 散布図
        plot prin2*prin1/vref=0 href=0;              : 主成分得点のプロット
        plot prin3*prin2/vref=0 href=0;              :
        plot prin3*prin1/vref=0 href=0;              :
      run;                                           :
      

    3. 出力結果 : les1402.lst
      • 各変量の平均、標準偏差、共分散行列
      • 固有値、比率(寄与率)、累積寄与率
      • 固有ベクトル
      • 主成分得点
      • 第1軸〜第3軸の散布図

                                    SAS システム                             3
                                                   14:15 Tuesday, July 8, 2008
                            Principal Component Analysis
           117 Observations
             3 Variables
                                 Simple Statistics
      
                           SHINTYOU           TAIJYUU             KYOUI
      
             Mean       167.2401709       58.74700855       86.05982906
             StD          8.6936070       10.91957727        8.29342344
      
                                    SAS システム                             4
                                                   14:15 Tuesday, July 8, 2008
                            Principal Component Analysis
      
                                 Covariance Matrix
      
                             SHINTYOU           TAIJYUU             KYOUI
      
           SHINTYOU        75.5788034        69.8705953        23.3225759
           TAIJYUU         69.8705953       119.2371677        42.3221633
           KYOUI           23.3225759        42.3221633        68.7808724
      
                                    SAS システム                             5
                                                   14:15 Tuesday, July 8, 2008
                            Principal Component Analysis
      
                            Total Variance = 263.5968435
      
                        Eigenvalues of the Covariance Matrix
      
                  Eigenvalue      Difference      Proportion      Cumulative
      
       PRIN1         189.641         138.592        0.719436         0.71944
       PRIN2          51.049          28.142        0.193663         0.91310
       PRIN3          22.907            .           0.086900         1.00000
      
                                    SAS システム                             6
                                                   14:15 Tuesday, July 8, 2008
                            Principal Component Analysis
      
                                    Eigenvectors
      
                                  PRIN1         PRIN2         PRIN3
      
                 SHINTYOU      0.539180      -.386311      0.748364
                 TAIJYUU       0.756989      -.167162      -.631684
                 KYOUI         0.369124      0.907095      0.202303
      
                                    SAS システム                             7
                                                   14:15 Tuesday, July 8, 2008
                S
                H     T          K   C
                I     A     J    O   A           T
                N     I   K I    D   R           S     P       P        P
                T     J   Y T    U   R           U     R       R        R
         O  S   Y     Y   O A    K   Y           U     I       I        I
         B  E   O     U   U K    A   E           W     N       N        N
         S  X   U     U   I U    I   R           A     1       2        3
      
          1 F 145.0 38.0  . J  10000             .    .      .        .     
          2 F 146.7 41.0 85 J  10000 Vodafone 6000 -24.9003 9.94015 -4.37542
          3 F 148.0 42.0  . J  50000             .    .      .        .     
          4 F 148.0 43.0 80 J  50000 DoCoMo   4000 -24.5311 4.56815 -5.67743
          5 F 148.9   .   . J  60000             .    .      .        .     
          6 F 149.0 45.0  . G  60000             .    .      .        .     
          7 F 150.0 46.0 86    40000             . -18.9670 8.73661 -4.86194
          8 F 150.0   .   . J  10000 softbank   80    .      .        .     
          9 F 151.0 45.0  . J  20000 docomo   5000    .      .        .     
         10 F 151.0 50.0  . G  60000 J-PHONE     .    .      .        .     
         11 F 151.7 41.5 80 J  35000             . -23.6716 3.38954 -1.96095
         12 F 152.0 35.0 77 J  60000 DoCoMo   2000 -29.5376 1.63891  1.76260
         13 F 152.0 43.0  . J  20000 au       3500    .      .        .     
         14 F 152.0 44.0  .    45000 DoCoMo   4000    .      .        .     
         15 F 153.0 41.0  . J 125000 No          .    .      .        .     
      
                                    SAS システム                             9
                                                   14:15 Tuesday, July 8, 2008
              プロット : PRIN2*PRIN1.  凡例: A = 1 OBS, B = 2 OBS, ...
             (NOTE: 278 オブザベーションが欠損値です.)
      PRIN2 |                          |
         20 +                          |
            |                          |  A   A          A         A
            |           BA  BB CCA   D | A AC     A
          0 +--------A----A-ABCEBED-DAAADADEABCDBAC-AA-A-----A----------------
            |              A  AA    A  A C B BC A A
            |                      AA  | A AA
        -20 +                          |
            |                 A        |
            |                          |
        -40 +                          |   A
            ---+-----------+-----------+-----------+-----------+-----------+--
              -40         -20          0          20          40          60
                                           PRIN1
      
                                    SAS システム                            10
                                                   14:15 Tuesday, July 8, 2008
              プロット : PRIN3*PRIN2.  凡例: A = 1 OBS, B = 2 OBS, ...
             (NOTE: 278 オブザベーションが欠損値です.)
      PRIN3 |                                             |
         10 +                                      A A  A |
            |                                   B A  AB BB|AB
            |                                     AA  C ABFFBA AA
          0 +-------------------------------A----B-A--AA-BEDEEBBCAA----B------
            |                     A               A A  ACBAAECAB ABA   A
            |                                        A    A A B
        -10 +                                    A       A|      A
            |                                             |          A
            |                                             |A
        -20 +      A                                      |
            -+--------+--------+--------+--------+--------+--------+--------+-
            -50      -40      -30      -20      -10       0       10       20
                                           PRIN2
      
                                    SAS システム                            11
                                                   14:15 Tuesday, July 8, 2008
              プロット : PRIN3*PRIN1.  凡例: A = 1 OBS, B = 2 OBS, ...
             (NOTE: 278 オブザベーションが欠損値です.)
      PRIN3 |                          |
         10 +                          | A   A    A
            |                    B     |AB C  C B
            |        A      A AD  B B  |ABBBBAA   C
          0 +---------------ABBBEBAABCAABA-CBAAB-AA------A--------------------
            |           AAAAABBB BA A  A  CAAAAB    AA
            |           A           AA |        A            A
        -10 +                  A     A |      A
            |                          |                           A
            |                          |               A
        -20 +                          |   A
            ---+-----------+-----------+-----------+-----------+-----------+--
              -40         -20          0          20          40          60
                                           PRIN1
      

    4. 解釈方法
      • 寄与率 : 2軸まで取れば十分のようだ(91.3%)。
      • 第1軸 : 全体的な体格の因子。特に体重が効いている。
      • 第2軸 : 太さの因子(?)。胸囲が正で身長が負。

      • 第3軸 : 華奢さの因子(?)。無視しても良い軸であるが。(8.7%)。

  3. 相関行列を使う理由

    1. 相関行列を用いて体格の総合指標を求めてみよう : プログラム : les1403.sas

       /* Lesson 14-3 */
       /*    File Name = les1403.sas   07/10/08   */
      
      data gakusei;
        infile 'all08ae.prn'
          firstobs=2;
        input sex $ shintyou taijyuu kyoui
              jitaku $ kodukai carryer $ tsuuwa;
      
      proc print data=gakusei(obs=10);
      
      run;                                          :
      proc princomp data=gakusei out=outprin;       : 相関係数を使って
        var shintyou taijyuu kyoui;                 :
      run;                                          :
      proc print data=outprin(obs=15);
      run;
      proc plot data=outprin;
        plot prin2*prin1/vref=0 href=0;
        plot prin3*prin2/vref=0 href=0;
        plot prin3*prin1/vref=0 href=0;
      run;
      

    2. 出力結果 : les1403.lst
      • 各変量の平均、標準偏差、相関行列
      • 固有値、比率(寄与率)、累積寄与率
      • 固有ベクトル
      • 主成分得点
      • 第1軸〜第3軸の散布図

                                    SAS システム                             3
                                                   14:15 Tuesday, July 8, 2008
                            Principal Component Analysis
           117 Observations
             3 Variables
                                 Simple Statistics
      
                           SHINTYOU           TAIJYUU             KYOUI
      
             Mean       167.2401709       58.74700855       86.05982906
             StD          8.6936070       10.91957727        8.29342344
      
                                    SAS システム                             4
                                                   14:15 Tuesday, July 8, 2008
                            Principal Component Analysis
      
                                 Correlation Matrix
      
                               SHINTYOU       TAIJYUU         KYOUI
      
                 SHINTYOU        1.0000        0.7360        0.3235
                 TAIJYUU         0.7360        1.0000        0.4673
                 KYOUI           0.3235        0.4673        1.0000
      
                                    SAS システム                             5
                                                   14:15 Tuesday, July 8, 2008
                            Principal Component Analysis
      
                       Eigenvalues of the Correlation Matrix
      
                  Eigenvalue      Difference      Proportion      Cumulative
      
       PRIN1         2.03875         1.32250        0.679582         0.67958
       PRIN2         0.71625         0.47124        0.238750         0.91833
       PRIN3         0.24500          .             0.081668         1.00000
      
                                    SAS システム                             6
                                                   14:15 Tuesday, July 8, 2008
                            Principal Component Analysis
      
                                    Eigenvectors
      
                                  PRIN1         PRIN2         PRIN3
      
                 SHINTYOU      0.602312      -.470373      0.644957
                 TAIJYUU       0.640887      -.196740      -.741995
                 KYOUI         0.475904      0.860257      0.182957
      

    3. 解釈方法
      • 寄与率 : 2軸まで取れば十分のようだ(91.8%)。
      • 第1軸 : 全体的な体格の因子。
      • 第2軸 : 太さの因子。
      • 分散共分散行列を使ったときよりも 第1軸の固有ベクトル同士が近い値になった。 しかし、軸の解釈に違いはない。 その理由はこの例では 3変量のスケールや分散に それほどの違いがないためと想像される。
      • 分散共分散行列と相関行列を使ったときの違いを見てみたければ、 shintyou のみを mm 単位で測定したと考えて、 100倍したものをデータとして両者の出力を比較してみよ。
        プログラム : les1404.sas 、出力結果 : les1404.lst

  4. 主成分の数の決定基準 : 配布資料 80ページ
    明確に決まっているわけではないが、以下のような基準が一般的に 用いられている。また、結果の解釈の都合上、多少増減させることもある。

  5. いろいろなデータを主成分分析に適用して、解釈してみよう
    [演習1] 小遣いまでの 4変量のデータでは?
    [演習2] 自分の収集したデータでは?

    [注意] データによっては解釈が困難なことも有り得る。

    また、自分の思い付かない結果を含んでいることもある。

    [参考] 「J:\コンピュータによる統計解析02(林 篤裕)\」に以下のデータを置いておく。

    1. seiseki.dat
      中学2年生の成績データ。23名x5科目。国語、社会、数学、理科、英語。
      配布資料に掲載され、例題に使われていたデータ。
    2. food.dat
      100 種類の食品の嗜好度データ。100食品x10グループ。
    3. syumi.dat
      趣味に関するアンケート調査データ。30種類x6グループ。

  6. 最終レポート
    半年を通して学んできた SAS の使い方、および統計手法を、 自分が興味を持ったデータに適用してみて、興味深い知見を得る体験をしてもらう。

    1. 対象データ :
      • 自分で収集したデータ。
      • 一つである必要はない。複数でも良い。
      • 前回用いたものと異なっていても可。

    2. 作業内容 :
      1. SAS を使って解析し、興味深い知見を引き出そう。
      2. 以下の点に注意しながらレポートを作成しよう。

      3. 利用するデータ解析手法については、特に制限や指定をしないが、 「多変量解析の手法」を使うとより高度なデータ構造が把握できることがある。
      4. 前回のレポートの反省点を踏まえて作成すること。
      5. 興味を持った点や得られた知見に対する考察は人によって個々異なるもので あるので、他人と相談することなく自分の力で解析しレポートを作成すること。

    3. レポート : 以下に挙げるような項目を含めて作成すること。
      • 所属学部名、学籍番号、氏名
      • データ内容の説明
      • どのような点に興味を持ったか
      • 自分の解析目的
      • 何を知りたいためにどのような手法を使ったのか
      • 得られた知見と考察
      • その他、気付いたこと
      • 講義全体を通しての感想 : 今後の参考にしたいので

    4. 提出期限 :
      2008年07月31日(木) 16:00まで

    5. 注意 :
      1. 紙で提出する場合は、事務所の受付終了時刻に注意すること。 提出日は事務室の受領印で判断する。
      2. 電子メールで提出する場合に、添付ファイルは使わないこと。 また、提出日時はメールヘッダーから判断する。 受領確認メールを必ず返すのでこれを受け取って提出完了となる。
      3. レポートを受領した者の学籍番号は、 講義の連絡ページ に掲載するので、確認すること。 ただし、2回とも提出したからと言って単位が認定されるわけではない点には注意されたい。

  7. データやプログラムのバックアップ
    講義を終えると(後期開始まで? 年度末まで?)、 stat システムにログインできなくなり、 それと同時に stat システム内に保存してあるデータやプログラムも 呼び出せなくなる(正確には消去されてしまう)。 この半年間の勉強成果を残しておきたい人は、Windows 側に転送して、 FD や MO、USB メモリー等に早めにバックアップを取るようにして下さい。

  8. 最後に
    この講義を通して、「統計」や「データ解析」と言う言葉に 多少なりとも親しみを持っていただけただろうか? 統計手法については、数式よりもその手法の考え方や利用目的に重点をおいて 説明したつもりである。 また、それらを計算する"道具"として SAS を使った。
    今後、新聞や雑誌と言った生活では勿論のこと、 いろいろな場面で、種々の数値列に出会うことになると思うが、 提示された数値にはどの様な意味(と意図)があり、 どう理解して、個々人としてどうアクションを起すかの、 一つの判断手段として活用してもらえれば幸いである。

    なお、今まで紹介していた私のメールアドレスは実は講義用のものであった。 今後、もし統計に関して何か疑問に出会い、私に連絡・相談してみたいと思った時は、 以下のアドレスを使ってください。 なお、後期は水曜日3限に同様の講義を持っていますので、 その前後に質問していただいてもかまいません。

    メールアドレス : hayashi@rd.dnc.ac.jp

    皆さんの期待に応えられたか心許無い部分もありますが、半年間ご苦労様でした。

  9. 次回は、... : 07月24日? 31日?
    • 07月17日は登校しません。
    • ご希望はございますか?
    • 自習? レポート作成? 不登校日?
    • ...
[DIR]講義のホームページへ戻ります