因子分析 と Closing

統計解析 02 クラス : 第14回 (07/19/07)

 前回は主成分分析を紹介した。 この手法は、p変量(p次元)の観測値をm個(m次元)の主成分に縮約させる方法であった。 その意味では、因子分析(Factor Analysis, FA)も同じような方法であるのだが、 主成分分析(Principal Component Analysis, PCA)の場合は、 データの散らばり方(分散)を捉えてデータ特性を把握する手法であった。 今回説明する因子分析は、変数間に(潜在的な)構造を持ち込んで関係を探る手法である (少し理解しにくいかもしれないが)。 この手法は心理学の分野で広く利用されている。
  1. 定式化 : 配布資料 195ページ〜

  2. [例題1] 食品の嗜好性を探ってみよう : 200 ページ〜
    100種類の食品の性、年齢毎の嗜好度調査の結果 : データ : food.dat

    1. まずは因子数を決めよう : プログラム : les1401.sas

       /* Lesson 14-1 */
       /*    File Name = les1401.sas   07/19/07   */
      
      data food;                          :
        infile 'food.dat';                : ファイルの読み込み
        input X01-X10;                    : 変量リスト、連続的に
          label X01='M(-15)'              : 各変量に解りやすい名前を付ける
                X02='M(16-20)'            :   M : 男性
                X03='M(21-30)'            :   F : 女性
                X04='M(31-40)'            :  ()内 : 年齢
                X05='M(41-)'              :
                X06='F(-15)'              :
                X07='F(16-20)'            :
                X08='F(21-30)'            :
                X09='F(31-40)'            :
                X10='F(41-)';             :
                                          :
      proc print data=food(obs=10);       : データの表示
      run;                                :
      proc factor data=food;              : オプションを付けないと主成分分析
        var X01-X10;                      : 解析に使う変量リスト
      run;                                :
      
    2. 出力結果 : les1401.lst
                                    SAS システム                             1
                                                19:05 Wednesday, July 18, 2007
      
          OBS   X01   X02   X03   X04   X05   X06   X07   X08   X09   X10
      
            1  7.69  7.31  7.47  7.76  7.87  7.51  7.24  7.70  7.91  7.95
            2  6.59  5.56  6.21  6.04  5.81  6.64  6.11  6.53  6.44  6.64
            3  4.55  4.18  4.36  4.25  4.53  4.60  3.66  4.04  3.68  4.43
            4  6.78  6.11  6.30  5.98  5.56  6.37  6.29  5.43  5.32  5.28
            5  6.47  6.24  6.02  5.42  5.88  6.00  5.60  4.60  5.40  5.95
      
                                    SAS システム                             2
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                        Prior Communality Estimates: ONE    
      
          Eigenvalues of the Correlation Matrix:  Total = 10  Average = 1
      
                             1           2           3           4           5
      Eigenvalue        6.8280      1.7619      0.7545      0.2624      0.1216
      Difference        5.0661      1.0074      0.4921      0.1408      0.0236
      Proportion        0.6828      0.1762      0.0754      0.0262      0.0122
      Cumulative        0.6828      0.8590      0.9344      0.9607      0.9728
      
                             6           7           8           9          10
      Eigenvalue        0.0980      0.0721      0.0441      0.0358      0.0219
      Difference        0.0259      0.0280      0.0083      0.0139
      Proportion        0.0098      0.0072      0.0044      0.0036      0.0022
      Cumulative        0.9826      0.9898      0.9942      0.9978      1.0000
      
                                    SAS システム                             3
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
               2 factors will be retained by the MINEIGEN criterion.
      
                                    SAS システム                             4
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                                   Factor Pattern
      
                                 FACTOR1   FACTOR2
      
                      X01        0.74741  -0.59244    M(-15)  
                      X02        0.86579  -0.31836    M(16-20)
                      X03        0.84491   0.22079    M(21-30)
                      X04        0.78216   0.47602    M(31-40)
                      X05        0.68129   0.67325    M(41-)  
                      X06        0.80647  -0.54140    F(-15)  
                      X07        0.89959  -0.33542    F(16-20)
                      X08        0.90901  -0.04289    F(21-30)
                      X09        0.90316   0.21817    F(31-40)
                      X10        0.79262   0.35477    F(41-)  
      
                                    SAS システム                             5
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                         Variance explained by each factor
      
                                   FACTOR1   FACTOR2
                                  6.827955  1.761873
      
                   Final Communality Estimates: Total = 8.589828
      
                        X01       X02       X03       X04       X05
                   0.909618  0.850950  0.762624  0.838371  0.917413
      
                        X06       X07       X08       X09       X10
                   0.943520  0.921775  0.828147  0.863298  0.754112
      
    3. 解釈方法 :
      • 固有値(Eigenvalue) : 相関行列を用いた主成分分析の計算結果
        • 相関行列を用いた主成分が計算される (因子数を決めるため)
        • [コメント] 理解を難しくしている一つの理由かもしれない
        • 比較のためのプログラム : les1401pca.sas, 出力 : les1401pca.lst
      • システム側からは因子数は2だと判断された : 固有値が1より大きい
      • 因子負荷量(Factor Pattern) : aj
      • 因子毎の分散(Variance explained by each factor) : 総分散(10, 変量数と等しくなる)のどれだけを説明しているか。因子毎の説明量。
      • 共通性(Final Communality Estimates, Σaj^2) : 変数毎の説明割合。

      • 因子数の決定 : 解析者側の判断
        • 固有値の変化量からすると、3 でも良さそう : 3 と 4 の間が空いてる
        • 因子数を 3 として計算してみよう

        • 因子数の決め方は、主成分分析の時と同様の考え方
          • 累積寄与率(Cumulative)
          • 固有値の値(Eigenvalue, Proportion)
          • 固有値間のギャップ(Difference) 等

    4. 因子数3で解析 : プログラム : les1402.sas

       /* Lesson 14-2 */
       /*    File Name = les1402.sas   07/19/07   */
      
      data food;
        infile 'food.dat';
        input X01-X10;
          label X01='M(-15)'
                X02='M(16-20)'
                X03='M(21-30)'
                X04='M(31-40)'
                X05='M(41-)'
                X06='F(-15)'
                X07='F(16-20)'
                X08='F(21-30)'
                X09='F(31-40)'
                X10='F(41-)';
      
      proc print data=food(obs=10);
      run;                                          :
      proc factor data=food nfactor=3 out=fscore;   : 因子数3、出力の保存
        var X01-X10;                                :
      run;                                          :
      proc plot data=fscore;                        :
        plot factor1*factor2/vref=0.0 href=0.0;     : 第1因子 x 第2因子、軸
        plot factor2*factor3/vref=0.0 href=0.0;     : 第2因子 x 第3因子、軸
      run;                                          :
      
    5. 出力結果 : les1402.lst
                                    SAS システム                             2
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                        Prior Communality Estimates: ONE    
      
          Eigenvalues of the Correlation Matrix:  Total = 10  Average = 1
      
                             1           2           3           4           5
      Eigenvalue        6.8280      1.7619      0.7545      0.2624      0.1216
      Difference        5.0661      1.0074      0.4921      0.1408      0.0236
      Proportion        0.6828      0.1762      0.0754      0.0262      0.0122
      Cumulative        0.6828      0.8590      0.9344      0.9607      0.9728
      
                             6           7           8           9          10
      Eigenvalue        0.0980      0.0721      0.0441      0.0358      0.0219
      Difference        0.0259      0.0280      0.0083      0.0139
      Proportion        0.0098      0.0072      0.0044      0.0036      0.0022
      Cumulative        0.9826      0.9898      0.9942      0.9978      1.0000
      
                                    SAS システム                             3
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                3 factors will be retained by the NFACTOR criterion.
      
                                    SAS システム                             4
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                                   Factor Pattern
      
                            FACTOR1   FACTOR2   FACTOR3
      
                 X01        0.74741  -0.59244   0.16808    M(-15)  
                 X02        0.86579  -0.31836   0.29190    M(16-20)
                 X03        0.84491   0.22079   0.38417    M(21-30)
                 X04        0.78216   0.47602   0.32604    M(31-40)
                 X05        0.68129   0.67325   0.11067    M(41-)  
                 X06        0.80647  -0.54140  -0.07270    F(-15)  
                 X07        0.89959  -0.33542  -0.14888    F(16-20)
                 X08        0.90901  -0.04289  -0.25110    F(21-30)
                 X09        0.90316   0.21817  -0.27989    F(31-40)
                 X10        0.79262   0.35477  -0.45389    F(41-)  
      
                                    SAS システム                             5
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                         Variance explained by each factor
      
                              FACTOR1   FACTOR2   FACTOR3
                             6.827955  1.761873  0.754451
      
                   Final Communality Estimates: Total = 9.344279
      
                        X01       X02       X03       X04       X05
                   0.937870  0.936157  0.910210  0.944673  0.929662
      
                        X06       X07       X08       X09       X10
                   0.948805  0.943939  0.891197  0.941637  0.960129
      
                                    SAS システム                             6
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                    Scoring Coefficients Estimated by Regression
      
          Squared Multiple Correlations of the Variables with each Factor
      
                              FACTOR1   FACTOR2   FACTOR3
                             1.000000  1.000000  1.000000
      
                                    SAS システム                             7
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                         Standardized Scoring Coefficients
      
                            FACTOR1   FACTOR2   FACTOR3
      
                 X01        0.10946  -0.33626   0.22279    M(-15)  
                 X02        0.12680  -0.18069   0.38691    M(16-20)
                 X03        0.12374   0.12531   0.50920    M(21-30)
                 X04        0.11455   0.27018   0.43215    M(31-40)
                 X05        0.09978   0.38212   0.14670    M(41-)  
                 X06        0.11811  -0.30729  -0.09636    F(-15)  
                 X07        0.13175  -0.19038  -0.19733    F(16-20)
                 X08        0.13313  -0.02434  -0.33282    F(21-30)
                 X09        0.13227   0.12383  -0.37099    F(31-40)
                 X10        0.11609   0.20136  -0.60162    F(41-)  
      
                                    SAS システム                             8
                                                19:05 Wednesday, July 18, 2007
            プロット : FACTOR1*FACTOR2.  凡例: A = 1 OBS, B = 2 OBS, ...
            5 +                                     |
              |                                     |
      FACTOR1 |                                     |
              |                        A        A   |A       B   A
              |               A     A  A AA  BBA  AAADA  BB   A AA   A A A
            0 +----A-------A----AAB--AAA----ACA---BABAAA-B--AAAAA--AA-A--A--A-
              |             A   AA  A A  A  A A A A | ABAAABB  BA  A  A   A
              |                     A         A  A  |       A       A
              |                                     |    A
              |                                     |
           -5 +                                     |
              --+-----------+-----------+-----------+-----------+-----------+-
               -3          -2          -1           0           1           2
                                           FACTOR2
      
                                    SAS システム                             9
                                                19:05 Wednesday, July 18, 2007
            プロット : FACTOR2*FACTOR3.  凡例: A = 1 OBS, B = 2 OBS, ...
      FACTOR2 |                     |
          2.5 +                     |
              |         A A   A  A  | AC                A     A    A
              |    AA   ABA ADABA AB|  B  A    AA  AA      A
          0.0 +---BA----AAAA-CBA--A-+-ECB-A------A----A--------A--------------
              |          A  A BAA ABB AB  AABAB
              |            B  AA B AAAAA    A                 A
         -2.5 +                     |     A
              |                     |
              |                     |
         -5.0 +                     |
              --+---------+---------+---------+---------+---------+---------+-
               -2        -1         0         1         2         3         4
                                           FACTOR3
      
    6. 解釈方法 : 因子の特徴付け : 因子負荷量の大小から。
      • 固有値(Eigenvalue)
      • 因子毎の分散(Variance explained by each factor) : 因子毎の説明量。
      • 共通性(Final Communality Estimates, Σaj^2) : 変数毎の説明割合。
      • 因子負荷量(Standardized Scoring Coefficients) : aj : ラインマーカーの利用が効果的
        • 第1因子 : 全体的な嗜好
        • 第2因子 : 年齢効果 (+ 年輩、- 若年)
        • 第3因子 : 性別効果 (+ 男性、- 女性)
      • 各個体の散布図 : 第2因子と第3因子の関係が面白い

    7. 回転させてみよう : プログラム : les1403.sas
      • 回転の不定性から。
      • 回転させた方が解釈がし易いことも多いから。
       /* Lesson 14-3 */
       /*    File Name = les1403.sas   07/19/07   */
      
      data food;
        infile 'food.dat';
        input X01-X10;
          label X01='M(-15)'
                X02='M(16-20)'
                X03='M(21-30)'
                X04='M(31-40)'
                X05='M(41-)'
                X06='F(-15)'
                X07='F(16-20)'
                X08='F(21-30)'
                X09='F(31-40)'
                X10='F(41-)';
      
      proc print data=food(obs=10);
      run;
      proc factor data=food nfactor=3 rotate=varimax out=fscore2;
        var X01-X10;                                : 回転の指定
      run;                                          :
      proc print data=fscore2;
      run;
      proc plot data=fscore2;
        plot factor1*factor2/vref=0.0 href=0.0;
        plot factor2*factor3/vref=0.0 href=0.0;
        plot factor3*factor1/vref=0.0 href=0.0;
      run;
      
    8. 出力結果 : les1403.lst
                                    SAS システム                             6
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                          Orthogonal Transformation Matrix
      
                                     1         2         3   
      
                           1      0.65751   0.53576   0.52976
                           2     -0.73452   0.61238   0.29234
                           3      0.16779   0.58134  -0.79617
      
                                    SAS システム                             7
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                               Rotated Factor Pattern
      
                            FACTOR1   FACTOR2   FACTOR3
      
                 X01        0.95480   0.13534   0.08893    M(-15)  
                 X02        0.85209   0.43859   0.13319    M(16-20)
                 X03        0.45782   0.81121   0.20628    M(21-30)
                 X04        0.21933   0.90009   0.29393    M(31-40)
                 X05       -0.02799   0.84163   0.46962    M(41-)  
                 X06        0.91574   0.05827   0.32684    F(-15)  
                 X07        0.81289   0.19001   0.49704    F(16-20)
                 X08        0.58706   0.31477   0.66894    F(21-30)
                 X09        0.38662   0.45477   0.76508    F(31-40)
                 X10        0.18442   0.37804   0.88499    F(41-)  
      
                                    SAS システム                             8
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                         Variance explained by each factor
      
                              FACTOR1   FACTOR2   FACTOR3
                             3.923686  2.875550  2.545044
      
                   Final Communality Estimates: Total = 9.344279
      
                        X01       X02       X03       X04       X05
                   0.937870  0.936157  0.910210  0.944673  0.929662
      
                        X06       X07       X08       X09       X10
                   0.948805  0.943939  0.891197  0.941637  0.960129
      
                                    SAS システム                             9
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                    Scoring Coefficients Estimated by Regression
      
          Squared Multiple Correlations of the Variables with each Factor
      
                              FACTOR1   FACTOR2   FACTOR3
                             1.000000  1.000000  1.000000
      
                                    SAS システム                            10
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                         Standardized Scoring Coefficients
      
                            FACTOR1   FACTOR2   FACTOR3
      
                 X01        0.35634  -0.01776  -0.21769    M(-15)  
                 X02        0.28101   0.18221  -0.29369    M(16-20)
                 X03        0.07475   0.43906  -0.30323    M(21-30)
                 X04       -0.05062   0.47805  -0.20440    M(31-40)
                 X05       -0.19046   0.37274   0.04777    M(41-)  
                 X06        0.28720  -0.18091   0.04945    F(-15)  
                 X07        0.19335  -0.16071   0.17125    F(16-20)
                 X08        0.04957  -0.13707   0.32839    F(21-30)
                 X09       -0.06623  -0.06897   0.40164    F(31-40)
                 X10       -0.17252  -0.16424   0.59935    F(41-)  
      
                                    SAS システム                            11
                                                19:05 Wednesday, July 18, 2007
        OBS     X01     X02     X03     X04     X05     X06     X07     X08
      
          1    7.69    7.31    7.47    7.76    7.87    7.51    7.24    7.70
          2    6.59    5.56    6.21    6.04    5.81    6.64    6.11    6.53
          3    4.55    4.18    4.36    4.25    4.53    4.60    3.66    4.04
          4    6.78    6.11    6.30    5.98    5.56    6.37    6.29    5.43
          5    6.47    6.24    6.02    5.42    5.88    6.00    5.60    4.60
          6    6.96    6.81    6.91    6.48    6.23    7.09    7.27    7.13
      
        OBS     X09     X10     FACTOR1     FACTOR2     FACTOR3
      
          1    7.91    7.95     0.66848     1.82089     1.58151
          2    6.44    6.64     0.16753    -0.19985     1.19223
          3    3.68    4.43    -1.03317    -1.44074    -0.47196
          4    5.32    5.28     0.63828     0.22675    -0.50040
          5    5.40    5.95     0.18212     0.09192    -0.20819
          6    6.86    7.36     0.74098     0.36705     1.34820
      
                                    SAS システム                            12
                                                19:05 Wednesday, July 18, 2007
        OBS     X01     X02     X03     X04     X05     X06     X07     X08
      
          7    6.57    5.70    5.89    5.16    5.30    6.07    5.56    4.50
          8    7.32    6.95    6.02    4.98    4.88    6.82    6.40    5.53
          9    6.51    6.15    5.51    4.68    4.16    5.17    4.81    4.70
         10    6.86    6.05    5.85    6.14    6.75    6.71    5.39    5.42
         11    7.04    6.03    6.53    6.02    6.68    6.78    5.91    6.26
         12    6.59    6.30    6.29    5.94    6.10    5.93    5.52    5.35
      
        OBS     X09     X10     FACTOR1     FACTOR2     FACTOR3
      
          7    4.92    5.33     0.32212    -0.32353    -0.54867
          8    5.61    5.33     1.29399    -0.70772    -0.34096
          9    4.86    3.82     0.58563    -0.74996    -1.38927
         10    6.03    6.59     0.02082     0.39858     0.55099
         11    5.76    5.95     0.40333     0.58990     0.17654
         12    5.45    5.85     0.19777     0.54869    -0.27747
      
                                    SAS システム                            13
                                                19:05 Wednesday, July 18, 2007
        OBS     X01     X02     X03     X04     X05     X06     X07     X08
      
         13    5.93    4.76    5.09    5.51    5.79    5.49    4.97    4.69
         14    7.00    6.31    6.82    6.26    5.26    6.69    6.27    5.94
         15    6.63    5.47    5.54    4.88    4.70    5.89    4.64    4.43
         16    6.56    6.57    5.74    4.76    4.39    6.56    6.29    5.61
         17    5.80    5.44    4.75    4.69    4.65    5.23    4.83    4.66
         18    6.39    6.14    6.21    5.48    5.40    6.32    6.19    6.44
      
        OBS     X09     X10     FACTOR1     FACTOR2     FACTOR3
      
         13    5.30    5.61    -0.59891    -0.44433     0.31937
         14    5.78    5.26     0.91545     0.42234    -0.53556
         15    4.00    3.98     0.46237    -0.53286    -1.57500
         16    5.22    4.72     1.11088    -1.07750    -0.45395
         17    4.72    4.98    -0.13938    -1.22229    -0.20671
         18    5.49    5.49     0.56235    -0.28372     0.15357
      
                                    SAS システム                            14
                                                19:05 Wednesday, July 18, 2007
        OBS     X01     X02     X03     X04     X05     X06     X07     X08
      
         19    7.19    6.66    6.58    5.33    5.03    7.13    7.19    6.62
         20    5.76    6.63    7.02    7.37    7.27    5.93    5.89    6.70
         21    5.74    5.71    5.93    6.12    6.24    5.42    5.69    6.10
         22    5.52    5.28    5.17    4.69    4.87    4.86    4.66    4.10
         23    4.89    4.75    5.02    5.14    4.65    4.96    4.17    3.89
         24    6.46    6.88    6.93    6.74    6.52    6.14    6.64    5.81
      
        OBS     X09     X10     FACTOR1     FACTOR2     FACTOR3
      
         19    5.78    5.23     1.42714    -0.49423    -0.05168
         20    6.82    6.97    -0.35623     1.77580     0.83460
         21    6.25    6.45    -0.47556     0.23363     0.99794
         22    4.62    4.10    -0.26665    -0.65259    -0.96309
         23    4.61    4.01    -0.63574    -0.58237    -0.93949
         24    6.14    6.59     0.33341     1.19569     0.15960
      
                                    SAS システム                            15
                                                19:05 Wednesday, July 18, 2007
        OBS     X01     X02     X03     X04     X05     X06     X07     X08
      
         25    6.42    6.79    7.26    6.68    6.48    6.32    5.85    5.14
         26    5.89    6.51    6.46    6.31    5.76    5.54    4.38    4.51
         27    4.16    4.73    5.75    5.79    5.29    3.35    4.16    4.33
         28    5.99    6.10    5.84    5.49    4.82    5.04    4.44    4.09
         29    6.97    5.84    5.47    4.58    4.75    6.71    5.90    5.08
         30    7.15    6.76    6.56    5.73    5.13    6.99    6.27    5.75
      
        OBS     X09     X10     FACTOR1     FACTOR2     FACTOR3
      
         25    6.21    5.55     0.37449     1.61803    -0.74503
         26    5.75    5.11    -0.09504     1.13524    -1.07720
         27    5.49    4.72    -1.46393     0.43161    -0.39411
         28    5.01    4.31     0.06458     0.18701    -1.46831
         29    4.87    5.01     0.86305    -1.21930    -0.35051
         30    5.58    4.98     1.22856     0.06522    -0.75458
      
      ≪略≫
                                    SAS システム                            25
                                                19:05 Wednesday, July 18, 2007
        OBS     X01     X02     X03     X04     X05     X06     X07     X08
      
         85    6.96    5.61    4.34    4.28    4.15    6.46    5.70    5.31
         86    5.71    5.58    5.46    5.10    5.57    5.46    5.94    5.19
         87    5.30    5.88    5.35    5.24    5.68    5.17    5.91    5.06
         88    7.09    6.39    5.60    6.18    5.81    7.12    6.69    5.96
         89    6.93    6.73    5.60    5.63    6.13    7.13    6.66    6.42
         90    7.46    6.19    5.42    4.70    3.68    7.33    6.73    5.58
      
        OBS     X09     X10     FACTOR1     FACTOR2     FACTOR3
      
         85    4.77    4.19     0.89484    -2.11006    -0.27929
         86    5.78    6.23    -0.28762    -0.71826     0.87305
         87    5.56    6.10    -0.40623    -0.50420     0.66559
         88    6.28    6.60     0.66657    -0.37147     0.91228
         89    6.44    6.50     0.69692    -0.51150     1.12494
         90    4.18    3.39     1.90587    -1.55808    -1.44320
      
                                    SAS システム                            26
                                                19:05 Wednesday, July 18, 2007
        OBS     X01     X02     X03     X04     X05     X06     X07     X08
      
         91    6.38    5.28    5.07    3.96    4.25    6.28    5.21    4.65
         92    7.41    6.97    5.91    4.96    4.86    7.19    6.72    5.98
         93    7.77    6.47    5.71    5.26    4.91    7.72    7.03    6.42
         94    7.96    7.13    6.36    6.18    5.71    7.92    7.59    6.87
         95    7.62    6.48    5.75    4.69    4.65    7.82    7.17    6.31
         96    8.44    7.52    6.82    6.88    6.05    8.48    8.33    7.25
      
        OBS     X09     X10    FACTOR1     FACTOR2     FACTOR3
      
         91    4.49    4.64    0.50096    -1.77073    -0.41813
         92    5.53    5.52    1.45131    -0.95522    -0.05731
         93    5.52    5.46    1.57106    -1.13765     0.18885
         94    6.77    6.43    1.56707    -0.24567     0.79587
         95    5.53    5.58    1.64304    -1.55742     0.37033
         96    6.83    6.55    1.98060     0.32279     0.62116
      
                                    SAS システム                            27
                                                19:05 Wednesday, July 18, 2007
        OBS     X01     X02     X03     X04     X05     X06     X07     X08
      
         97    7.81    7.31    6.93    7.42    6.60    8.10    7.56    7.79
         98    8.29    7.45    7.00    6.76    6.69    8.14    7.09    6.83
         99    7.20    6.42    6.23    5.92    5.91    6.98    6.44    6.04
        100    7.62    7.33    6.91    6.90    6.47    7.33    6.69    7.23
      
        OBS     X09     X10    FACTOR1     FACTOR2     FACTOR3
      
         97    7.82    7.67    1.18227     0.72902     1.67725
         98    6.83    7.13    1.41828     0.79855     0.65451
         99    6.14    6.02    0.78541     0.01100     0.33576
        100    6.79    6.70    1.06526     0.90338     0.58077
      
                                    SAS システム                            28
                                                19:05 Wednesday, July 18, 2007
            プロット : FACTOR1*FACTOR2.  凡例: A = 1 OBS, B = 2 OBS, ...
            2 +               A               |  A
              |               A    AA    A  A |  A    A
      FACTOR1 |                    A   AA     |A A A A A
              |          A        B      AA  AB B C A      A  A A       A
              |             A          A A B  |  A AA   A A   A
            0 +-----------------A-A---------B-+AA-AA--A-AA--------------------
              |              A         B AA AA| A        A    A A  A
              |                     A   AA   A|A  C    AA
              |             A A AA   A AA B   |   A    A               A
              |               A            A  |   AA        A
           -2 +                   A   A      A|           A
              --+---------+---------+---------+---------+---------+---------+-
               -3        -2        -1         0         1         2         3
                                           FACTOR2
      
                                    SAS システム                            29
                                                19:05 Wednesday, July 18, 2007
            プロット : FACTOR2*FACTOR3.  凡例: A = 1 OBS, B = 2 OBS, ...
      FACTOR2 |                                         |
            4 +                                         |
              |                                         |
              |                  A               A      |
            2 +                              A          |       A       A
              |             A                AA  A      | AAA  A    A A
              |       A       A          A  A   A  AAA  |ABB  BAB    A B AA
            0 +--------------------------A------B--D--AA+ACB-AAABAB-A---------
              |                         A A   AAA    A C| BA  BA C A  A
              |                           A  A     CA A | A B  AB  A
           -2 +                          A       A  AA  |
              --+---------+---------+---------+---------+---------+---------+-
               -4        -3        -2        -1         0         1         2
                                           FACTOR3
      
                                    SAS システム                            30
                                                19:05 Wednesday, July 18, 2007
            プロット : FACTOR3*FACTOR1.  凡例: A = 1 OBS, B = 2 OBS, ...
      FACTOR3 |                                     |
          2.5 +                                     |
              |                       A   B         |A      BA    A
              |              A     BABA A C   ABBAA AAA    AB    A   A A    A
          0.0 +-------------A-----BA-A-AAA---A--A-A-+-BAAC-AABAA-A--AC-AA-----
              |               A        AA A A  A B B|   B A ABBB A AA
              |                          A       A  |A    AA               A
         -2.5 +              A      A               |            A
              |                   A                 |
              |                                     |
         -5.0 +                                     |
              --+-----------+-----------+-----------+-----------+-----------+-
               -3          -2          -1           0           1           2
                                           FACTOR1
      
    9. 解釈方法 : 因子の特徴付け : 因子負荷量の大小から。
      • (回転行列, Orthogonal Transformation Matrix)
      • 因子毎の分散(Variance explained by each factor) : 因子毎の説明量。
      • 共通性(Final Communality Estimates, Σaj^2) : 変数毎の説明割合。
      • 因子負荷量(Standardized Scoring Coefficients) : aj
        • 第1因子 : 若年層の嗜好 (+ 若年、- 年輩)
        • 第2因子 : 成人男性の嗜好 (+ 成年男子)
        • 第3因子 : 成人女性の嗜好 (+ 成年女子)
      • 各個体の散布図 : 各因子間の関係が面白い。各個体の具体的な位置を把握。
      • 回転前と回転後でどのように解釈が変化したか?

    10. 代表的な回転法 :
      • バリマックス法(rotate=varimax) : 直交回転 : 因子軸間は直交(独立性)
      • プロマックス法(rotate=promax) : 斜交回転 : 因子軸間に相関性

  3. [例題2] 趣味の特性を探ってみよう : 193 ページ
    30種類の趣味の性、年齢毎の特性調査の結果 : データ : syumi.dat

    1. プログラム : les1404.sas

       /* Lesson 14-4 */
       /*    File Name = les1404.sas   07/19/07   */
      
      data hobby;
        infile 'syumi.dat';
        input code $ X1-X6;
          label X1='M(-29)'
                X2='M(30-49)'
                X3='M(50-)'
                X4='F(-29)'
                X5='F(30-49)'
                X6='F(50-)';
      
      proc print data=hobby(obs=10);
      run;
      proc factor data=hobby nfactor=2 out=fscore;
        var X1-X6;
      run;
      proc plot data=fscore;                           : 回転前
        plot factor1*factor2=code/vref=0.0 href=0.0;   : コード化した記号
      run;                                             :
      proc factor data=hobby nfactor=2 rotate=varimax out=fscore2;
        var X1-X6;
      run;
      proc plot data=fscore2;                          : 回転後
        plot factor1*factor2=code/vref=0.0 href=0.0;   : コード化した記号
      run;                                             :
      
    2. 出力結果 : les1404.lst
                                    SAS システム                             1
                                                19:05 Wednesday, July 18, 2007
      
            OBS    CODE     X1      X2      X3      X4      X5      X6
      
              1     A      4.00    4.25    3.83    4.50    4.67    4.00
              2     B      4.17    3.89    4.00    4.50    4.17    3.75
              3     C      3.83    3.44    2.83    3.57    3.17    1.50
              4     D      2.83    4.22    3.83    3.71    3.00    2.25
              5     E      4.17    4.11    3.83    3.57    4.00    3.75
              6     F      2.33    3.56    3.33    2.93    2.83    2.75
              7     G      1.83    2.44    2.33    3.71    3.83    3.75
              8     H      2.50    1.89    2.00    4.21    3.17    3.75
              9     I      2.00    1.44    2.00    4.07    3.33    3.50
             10     J      4.00    3.33    3.33    3.00    3.17    2.25
      
                                    SAS システム                             2
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                        Prior Communality Estimates: ONE    
      
           Eigenvalues of the Correlation Matrix:  Total = 6  Average = 1
      
                                         1           2           3
                  Eigenvalue        2.7435      1.7477      0.7451
                  Difference        0.9958      1.0027      0.3571
                  Proportion        0.4573      0.2913      0.1242
                  Cumulative        0.4573      0.7485      0.8727
      
                                         4           5           6
                  Eigenvalue        0.3879      0.2263      0.1495
                  Difference        0.1616      0.0768
                  Proportion        0.0647      0.0377      0.0249
                  Cumulative        0.9374      0.9751      1.0000
      
                                    SAS システム                             3
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                2 factors will be retained by the NFACTOR criterion.
      
                                   Factor Pattern
      
                                 FACTOR1   FACTOR2
      
                      X1         0.52708   0.63297    M(-29)  
                      X2         0.59628   0.64623    M(30-49)
                      X3         0.64192   0.47370    M(50-)  
                      X4         0.82757  -0.35514    F(-29)  
                      X5         0.79607  -0.43033    F(30-49)
                      X6         0.61604  -0.62750    F(50-)  
      
                                    SAS システム                             4
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                         Variance explained by each factor
      
                                   FACTOR1   FACTOR2
                                  2.743514  1.747721
      
                   Final Communality Estimates: Total = 4.491236
      
                    X1        X2        X3        X4        X5        X6
              0.678467  0.773166  0.636447  0.810993  0.818906  0.773257
      
                                    SAS システム                             5
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                    Scoring Coefficients Estimated by Regression
      
          Squared Multiple Correlations of the Variables with each Factor
      
                                   FACTOR1   FACTOR2
                                  1.000000  1.000000
      
                                    SAS システム                             6
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                         Standardized Scoring Coefficients
      
                                 FACTOR1   FACTOR2
      
                      X1         0.19212   0.36217    M(-29)  
                      X2         0.21734   0.36976    M(30-49)
                      X3         0.23398   0.27104    M(50-)  
                      X4         0.30164  -0.20320    F(-29)  
                      X5         0.29016  -0.24622    F(30-49)
                      X6         0.22454  -0.35904    F(50-)  
      
                                    SAS システム                             7
                                                19:05 Wednesday, July 18, 2007
          プロット : FACTOR1*FACTOR2.  使用するプロット文字: CODE の値.
               (NOTE: 1 オブザベーションを表示していません.)
            2 +                                     A B
              |                                     |   Z E
      FACTOR1 |                             R       |
              |                                     |
              |                        3  Q      M  |          DL  O
            0 +--------------HG------------S-----2--+--F-------C--------------
              |          I           K         P    |         V   N
              |                                     |             U    W
              |                                    1|Y
              |                                     T         X
           -2 +                                 4   |
              --+-----------+-----------+-----------+-----------+-----------+-
               -3          -2          -1           0           1           2
      
                                           FACTOR2
                                    SAS システム                             8
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                        Prior Communality Estimates: ONE    
      
           Eigenvalues of the Correlation Matrix:  Total = 6  Average = 1
      
                                         1           2           3
                  Eigenvalue        2.7435      1.7477      0.7451
                  Difference        0.9958      1.0027      0.3571
                  Proportion        0.4573      0.2913      0.1242
                  Cumulative        0.4573      0.7485      0.8727
      
                                         4           5           6
                  Eigenvalue        0.3879      0.2263      0.1495
                  Difference        0.1616      0.0768
                  Proportion        0.0647      0.0377      0.0249
                  Cumulative        0.9374      0.9751      1.0000
      
                                    SAS システム                             9
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                2 factors will be retained by the NFACTOR criterion.
      
                                   Factor Pattern
      
                                 FACTOR1   FACTOR2
      
                      X1         0.52708   0.63297    M(-29)  
                      X2         0.59628   0.64623    M(30-49)
                      X3         0.64192   0.47370    M(50-)  
                      X4         0.82757  -0.35514    F(-29)  
                      X5         0.79607  -0.43033    F(30-49)
                      X6         0.61604  -0.62750    F(50-)  
      
                                    SAS システム                            10
                                                19:05 Wednesday, July 18, 2007
      Initial Factor Method: Principal Components
      
                         Variance explained by each factor
      
                                   FACTOR1   FACTOR2
                                  2.743514  1.747721
      
                   Final Communality Estimates: Total = 4.491236
      
                    X1        X2        X3        X4        X5        X6
              0.678467  0.773166  0.636447  0.810993  0.818906  0.773257
      
                                    SAS システム                            11
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                          Orthogonal Transformation Matrix
      
                                          1         2   
      
                                1      0.77751   0.62886
                                2     -0.62886   0.77751
      
                                    SAS システム                            12
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                               Rotated Factor Pattern
      
                                 FACTOR1   FACTOR2
      
                      X1         0.01176   0.82361    M(-29)  
                      X2         0.05723   0.87743    M(30-49)
                      X3         0.20121   0.77199    M(50-)  
                      X4         0.86678   0.24430    F(-29)  
                      X5         0.88957   0.16603    F(30-49)
                      X6         0.87359  -0.10049    F(50-)  
      
                         Variance explained by each factor
      
                                   FACTOR1   FACTOR2
                                  2.349707  2.141529
      
                                    SAS システム                            13
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                   Final Communality Estimates: Total = 4.491236
      
                    X1        X2        X3        X4        X5        X6
              0.678467  0.773166  0.636447  0.810993  0.818906  0.773257
      
                    Scoring Coefficients Estimated by Regression
      
          Squared Multiple Correlations of the Variables with each Factor
      
                                   FACTOR1   FACTOR2
                                  1.000000  1.000000
      
                                    SAS システム                            14
                                                19:05 Wednesday, July 18, 2007
      Rotation Method: Varimax
      
                         Standardized Scoring Coefficients
      
                                 FACTOR1   FACTOR2
      
                      X1        -0.07838   0.40241    M(-29)  
                      X2        -0.06354   0.42417    M(30-49)
                      X3         0.01147   0.35788    M(50-)  
                      X4         0.36232   0.03170    F(-29)  
                      X5         0.38045  -0.00897    F(30-49)
                      X6         0.40037  -0.13795    F(50-)  
      
                                    SAS システム                            15
                                                19:05 Wednesday, July 18, 2007
          プロット : FACTOR1*FACTOR2.  使用するプロット文字: CODE の値.
                 2 +                          |
                   |                          |               A
           FACTOR1 |  I    H G         3      |  R           ZB
                   |                     Q    |               E
                   |            K     S       |M
                 0 +---------------------P-2--+------------D-------------
                   |                          |F       CJ  L  O
                   |                   Y      |   V    N
                   |        4     1 T         |    U
                   |                      X   |      W
                -2 +                          |
                   ---+-----------+-----------+-----------+-----------+--
                     -2          -1           0           1           2
                                           FACTOR2
      
    3. 解釈方法 : 因子の特徴付け : 因子負荷量の大小から。
      • 因子毎の分散(Variance explained by each factor) : 因子毎の説明量。
      • 共通性(Final Communality Estimates, Σaj^2) : 変数毎の説明割合。
      • 因子負荷量(Standardized Scoring Coefficients) : aj

      • 因子数は2で良さそう
      • 回転前 : 因子の特徴付け
        • 第1因子 : 全体的な傾向
        • 第2因子 : 性別因子 (+ 男性、- 女性)
        • 各個体の散布図 : 各趣味がどの性別に好まれるか
      • 回転後 : 因子の特徴付け
        • 第1因子 : 女性因子 (+ 女性)
        • 第2因子 : 男性因子 (+ 男性)
        • 各個体の散布図 : 性別毎の特徴付け、両性に好まれる趣味
      • 記号を付けたことにより、より判り易く(& 解り易く)なっている
      • 年齢の効果はあまり見られない
      • 回転前と回転後でどのように解釈が変化したか?

  4. 因子数の決定基準

  5. 主成分分析(PCA)と因子分析(FA) : 解釈する際の考慮点と両手法の利用時の違い

  6. 最終レポート
    半年を通して学んできた SAS の使い方、および統計手法を、 自分が興味を持ったデータに適用してみて興味深い知見を得る体験をしてもらう。

    1. 課題は 前回の配付資料(第6節) に「予告」として掲載してあります。

    2. 提出期限 :
      2007年07月31日(火) 17:00まで

  7. データやプログラムのバックアップ
    講義を終えると(年度末まで?)、stat システムに ログインできなくなり、 それと同時に stat システム内に保存してあるデータやプログラムも 呼び出せなくなる(正確には消去されてしまう)。 この半年間の勉強成果を残しておきたい人は、Windows 側に転送して、 FD や MO、USB メモリー等に早めにバックアップを取るようにして下さい。

  8. 最後に
    この講義を通して、「統計」や「データ解析」と言う言葉に 多少なりとも親しみを持っていただけただろうか? 統計手法については、数式よりもその手法の考え方や利用目的に重点をおいて 説明したつもりである。 また、それらを計算する"道具"として SAS を使った。
    今後、新聞や雑誌と言った生活では勿論のこと、 いろいろな場面で、種々の数値列に出会うことになると思うが、 提示された数値にはどの様な意味(と意図)があり、 どう理解して、個々人としてどうアクションを起すかの、 一つの判断手段として活用してもらえれば幸いである。

    なお、今まで紹介していた私のメールアドレスは実は講義用のものであった。 今後、もし統計に関して何か疑問に出会い、私に連絡・相談してみたいと思った時は、 以下のアドレスを使ってください。 なお、後期は水曜日3限に同様の講義を持っていますので、 その前後に質問していただいてもかまいません。

    メールアドレス : hayashi@rd.dnc.ac.jp

    皆さんの期待に応えられたか心許無い部分もありますが、半年間ご苦労様でした。

  9. 来週は、... : 07月26日
    • レポート作成に充ててください。
    • 質問にお応えしましょうか?
    • 何かやった方が良いですか?
[DIR]講義のホームページへ戻ります