多変量解析(1) : 回帰分析

統計モデル解析特論I/II : 第04回 (10/26/21)

    1. 先週のショート課題から: 92名

    2. 回帰分析

     今回は、多変量解析の代表的な手法である回帰分析について解説する。

     工学系や農学系の実験等を行う領域では頻繁に使用される手法であるが、日常的な話題の中でも概念は広く利用されているので、取っ付き易い手法ではないだろうか。過去のデータからその構造を把握し、新規に測定されたデータに対する予測を行ないたいと言うときなどに、回帰分析は有用である。構造のシンプルな単回帰分析でこの手法の原理を理解し、複数の説明変量を用いた重回帰分析に拡張する。残差の取り方や、その二乗和を最少にするという考えは同じである。

    2.1. アイディア

    散布図にもっともらしい「直線」を当てはめたい。

    皆さんから収集した体格データを用いて、散布図を描いてみよう。どういう直線が「もっともらしい」と考えるか?

    2.2. ちょっとしたテクニック

    以下は得られたデータをそのままプロットしたものである。 今回取り扱った身長や体重は記憶に頼っている部分もあり離散量として回答されているので、 そのままプロットすると、同じポイントは重なって表示され(重なっている数は読み取れない)、また、「縞模様」状になってしまう。 そこで、一種のテクニックとして、各プロット点に微小な乱数を乗せて (微妙に揺らして)描画すると密度が視覚的に理解できる。
    言うまでも無いだろうが、あくまでもプロットする際のテクニックであり、 (回帰)分析に用いるデータに乱数を付加しているわけではない。

  1. 単回帰分析 : 予測等に使う、連続変量の関係
    • 体重を身長で説明(回帰)したい : [体重]=a+b[身長] : 回帰係数
    • 関係性は直線=線形を仮定する
    • 説明される変量 : 目的変数、従属変数、dependent variable
    • 説明する変量 : 説明変数、独立変数、independent variable

    • 誤差の取り方 : 指定された独立変数における測定誤差。だから誤差は垂直方向に分布する。
    • 回帰直線からのズレ(誤差)のことを回帰分析では「残差」と呼ぶ。
    • 残差の分布は正規分布を仮定する
    • 測定の場所によらず、残差は同一の分布であることを仮定する
    • どうやって直線を決める? : 予測誤差の2乗和を最小にする

    • 式の展開、解法。

      直線の方程式: Exp1

      測定値と予測値のズレ: Exp2

      ズレの2乗の和を最小に: Exp3

    • [余談] 回帰分析では「2乗和」を最小にすることを考えるが、「絶対値和」とか「符号付き和(1乗和)」を最小にする方法もアイディアとしてはあり得る。 2乗和だと式の展開が楽になる。

    • 説明する変数の個数
      • 一つ: 単回帰: 身長で説明したい : [体重]=a+b[身長]
      • 複数: 重回帰: 身長と胸囲で説明したい : [体重]=a+b[身長]+c[胸囲]

    1. プログラム : Reg0401.sas

    2. 出力結果 : Reg0401-Results.txt , Reg0401-Output.html
      • 散布図の見方にはややコツが必要: アルファベットで個数を表している
                                            Sunday, October 24, 2021 09:52:33 PM  61
      Obs  sex  shintyou  taijyuu  kyoui   jitaku    kodukai  carryer   tsuuwa
        1   F     145.0      38       .    自宅生     10000                 . 
        2   F     145.5      42      76    自宅生         0              3700 
        3   F     146.7      41      85    自宅生     10000   Vodafone   6000 
        4   F     148.0      42       .    自宅生     50000                 . 
        5   F     148.0      43      80    自宅生     50000   DoCoMo     4000 
        6   F     149.0      45       .    下宿生     60000                 . 
        7   F     150.0      46      86               40000                 . 
        8   F     150.0      47       .    自宅生         .                 . 
        9   F     151.0      45       .    自宅生     20000   docomo     5000 
       10         151.0      46       .    自宅生         0              6500 
      
                                            Sunday, October 24, 2021 09:52:33 PM  62
      The REG Procedure
      Model: MODEL1
      Dependent Variable: taijyuu 
      
      Number of Observations Read         530
      Number of Observations Used         530
      
                                   Analysis of Variance
      
                                          Sum of           Mean
      Source                   DF        Squares         Square    F Value    Pr > F
      Model                     1          20474          20474     415.07    <.0001
      Error                   528          26045       49.32673                     
      Corrected Total         529          46519                                    
      
      
      Root MSE              7.02330    R-Square     0.4401
      Dependent Mean       59.76679    Adj R-Sq     0.4391
      Coeff Var            11.75117                       
      
      
                              Parameter Estimates
       
                           Parameter       Standard
      Variable     DF       Estimate          Error    t Value    Pr > |t|
      Intercept     1      -79.19636        6.82764     -11.60      <.0001
      shintyou      1        0.82035        0.04027      20.37      <.0001
      
                                            Sunday, October 24, 2021 09:52:34 PM  63
                s
                h      t                    k       c
                i      a           j        o       a        t                r
                n      i    k      i        d       r        s      p         e
                t      j    y      t        u       r        u      r         s
       O   s    y      y    o      a        k       y        u      e         i
       b   e    o      u    u      k        a       e        w      d         d
       s   x    u      u    i      u        i       r        a      1         1
      
        1  F  145.0  38.0   .    自宅生  10000               .  39.7550   -1.7550
        2  F  145.5  42.0  76    自宅生      0            3700  40.1651    1.8349
        3  F  146.7  41.0  85    自宅生  10000  Vodafone  6000  41.1496   -0.1496
        4  F  148.0  42.0   .    自宅生  50000               .  42.2160   -0.2160
        5  F  148.0  43.0  80    自宅生  50000  DoCoMo    4000  42.2160    0.7840
        6  F  149.0  45.0   .    下宿生  60000               .  43.0364    1.9636
        7  F  150.0  46.0  86            40000               .  43.8567    2.1433
        8  F  150.0  47.0   .    自宅生      .               .  43.8567    3.1433
        9  F  151.0  45.0   .    自宅生  20000  docomo    5000  44.6771    0.3229
       10     151.0  46.0   .    自宅生      0            6500  44.6771    1.3229
       11  F  151.0  50.0   .    下宿生  60000  J-PHONE      .  44.6771    5.3229
       12  F  151.7  41.5  80    自宅生  35000               .  45.2513   -3.7513
       13  F  152.0  35.0  77    自宅生  60000  DoCoMo    2000  45.4974  -10.4974
       14  F  152.0  43.0   .    自宅生  20000  au        3500  45.4974   -2.4974
       15  F  152.0  44.0   .            45000  DoCoMo    4000  45.4974   -1.4974
      
                                            Sunday, October 24, 2021 09:52:34 PM  64
              Plot of taijyuu*shintyou.  Legend: A = 1 obs, B = 2 obs, etc.
          100 +                                                  A
              |                                             A
              |                                                  A
              |                                            A           A
              |                                       A
              |                                        A         A A    A
              |                                            AA               A
           80 +                                           A A A        A
              |                                  A     B   AA AAAA
              |                                     B  A      BA   BA A     AA
      taijyuu |                                   A    AC EC  CBCCA I AA   A
              |                              A        ABA BCB CABB  A    A A
              |                          A   AAA C BC AFD BBB GCDB CBA AAA
              |                              BAB B  D EJE FCBABBC  ACA AA
           60 +                      A   AA  AA  ABFAABFFACID EBDD AEA AA
              |                       A   A  AAB ECDFBBGDADBAAECAC
              |                  A    B   EC DDA GCII EFD CCB F     AA
              |               A  A  ABAB AD  DFC DDCCBAAA BA  A    A
              |                     BBAC CB      CCBA
              |             ABB  AB  B B AC ABAA  A
              |        A  B    ABA A BA       A
           40 +          A       A  A
              |        A
              |                 A
              |
              |
              |
              |
           20 +
              --+------------+------------+------------+------------+------------+--
               140          150          160          170          180          190
                                             shintyou
      
                                            Sunday, October 24, 2021 09:52:34 PM  65
                Plot of pred1*taijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
        80 +
      P    |
      r    |
      e    |
      d    |                                           A A
      i    |                                      A   A         A
      c    |                               AA  A AA                  A
      t 70 +                              B  AAA A  AA   A    A         A
      e    |                         B    CB ABB   AH A A
      d    |                      A   A BAD  A BBAB ABA B   A      A A       A    A
           |                          AAB EACAABCBC B C  A  B
      V    |                    A  BAC BD DAAB DABBAB A AA A A
      a    |                      AABBAABAICBCABAACAAAB   AA  A A A     A       A
      l    |                    BA CBBCBCAEDHAABCAB CCB      A
      u 60 +                     AABBFD FAG EEFDABBAA   A   B      A   A
      e    |                  A B CBAFBEAAA CA B A      AA
           |                 AE AAEBDFCBBAEB   B    A
      o    |               A  C EB BAEBCB  A BBD            A
      f    |            A   BA  ACFBCBB A B B AB  A
           |                 A     BA  A
      t    |               C ABCCAAB C   AA    A
      a 50 +             A  B BBAAAA A A
      i    |           AB  AA CABA         A
      j    |              A B
      y    |     A     ABAA  A  A    A
      u    |               ABA  A
      u    |            AA A
           |           A
        40 +        A   A
           -+---------+---------+---------+---------+---------+---------+---------+-
           30        40        50        60        70        80        90        100
                                            taijyuu
      
                                            Sunday, October 24, 2021 09:52:34 PM  66
               Plot of resid1*shintyou.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         40 +
            |
            |                                                A
            |                                                     A
         30 +                                         A
            |                                              A      A
            |                                          A
            |                                   A          A
      R  20 +                                                       A   A
      e     |                                       A  B  A  B    A
      s     |                           A   A       A         A          A
      i     |                      A        A    A     A   AA A AA
      d  10 +                           A   AA AC     AAC CB  B A A     A
      u     |                  A     A   A  BA BB  BC AD  BB  AB    B        A
      a     |               A        A   A   A  A   A BDD CCAAC  CBA A A
      l     |        A    ABA  A  A  BA  CA BA ABB FD CJB BBAAEB BA  I
          0 +---------A-B---A--AAABD--A-ACB-CD-BGC-BAABFJ-EC-ADC-DD--A-AA---A-AA----
            |       A         B  A A AC CC  DE  CC FKBBE ABI FCAA   CBA    A
            |                A B    A B AB   A CDBAHCACFEADBAADBAE  AC  BA  A
            |                     AB A   C ABA  CA  CBBCC AB  EB AD AEA    A
        -10 +                 A                A D BA   A CB BD A C   A AB
            |                                A            A   B      A
            |                                                 A     A A
            |
        -20 +
            |
            -+-------------+-------------+-------------+-------------+-------------+
            140           150           160           170           180          190
                                            shintyou
      
                                            Sunday, October 24, 2021 09:52:34 PM  67
               Plot of resid1*taijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         40 +
            |
            |                                                                    A
            |                                                                      A
         30 +                                                           A
            |                                                            A    A
            |                                                       A
            |                                                A     A
      R  20 +                                                         A  A
      e     |                                             A  BAA A  A
      s     |                                   A  A     A    A       A
      i     |                               A   A    A   A ABB
      d  10 +                              A   AE   ABCD AB  A A
      u     |                         A A AA BBBDACBABAC B       A
      a     |                    A    A A  AA ABECBEAEBB AA
      l     |            A  ABA  ABAAADAACAFBHFFCBCE I A
          0 +-----------AAA-ABACACAAFCFDDCBJDICAFDBBAAAAA-A-------------------------
            |        A    AB A BECCFBBLEEFBKDCC DAAA
            |           AB  ABAB FCEDEGGCF IABBCA AA
            |           ABA CBBC CADCCC CEAGB A A
        -10 +     A         A AF AAACCCB B BAA
            |            A       A  B A
            |                    A A  A
            |
        -20 +
            |
            -+---------+---------+---------+---------+---------+---------+---------+
            30        40        50        60        70        80        90       100
                                             taijyuu
      
                                            Sunday, October 24, 2021 09:52:34 PM  68
      The UNIVARIATE Procedure
      Variable:  resid1  (Residual)
                                  Moments
      N                         530    Sum Weights                530
      Mean                        0    Sum Observations             0
      Std Deviation      7.01665759    Variance            49.2334837
      Skewness           1.23637638    Kurtosis             3.0842392
      Uncorrected SS     26044.5129    Corrected SS        26044.5129
      Coeff Variation             .    Std Error Mean      0.30478413
      
                    Basic Statistical Measures
          Location                    Variability
      Mean      0.00000     Std Deviation            7.01666
      Median   -0.75341     Variance                49.23348
      Mode      1.53266     Range                   50.10177
                            Interquartile Range      7.76637
      
                 Tests for Location: Mu0=0
      Test           -Statistic-    -----p Value------
      Student's t    t         0    Pr > |t|    1.0000
      Sign           M       -27    Pr >= |M|   0.0212
      Signed Rank    S   -7355.5    Pr >= |S|   0.0369
      
                                            Sunday, October 24, 2021 09:52:34 PM  69
      The UNIVARIATE Procedure
      Variable:  resid1  (Residual)
      
                         Tests for Normality
      Test                  --Statistic---    -----p Value------
      
      Shapiro-Wilk          W      0.93292    Pr < W     <0.0001
      Kolmogorov-Smirnov    D     0.088405    Pr > D     <0.0100
      Cramer-von Mises      W-Sq  1.013696    Pr > W-Sq  <0.0050
      Anderson-Darling      A-Sq  6.390978    Pr > A-Sq  <0.0050
      
      Quantiles (Definition 5)
      
      Level           Quantile
      100% Max       34.454781
      99%            23.990091
      95%            12.634427
      90%             8.721152
      75% Q3          3.197259
      50% Median     -0.753406
      25% Q1         -4.569112
      10%            -7.775750
      5%             -9.365573
      1%            -11.904511
      0% Min        -15.646988
      
                                            Sunday, October 24, 2021 09:52:34 PM  70
      The UNIVARIATE Procedure
      Variable:  resid1  (Residual)
      
                 Extreme Observations
      
      ------Lowest-----        -----Highest-----
         Value      Obs           Value      Obs
      -15.6470      477         27.2751      369
      -14.3656      389         28.1734      474
      -13.8775      508         28.8104      239
      -13.4673      488         33.1734      475
      -12.2752       93         34.4548      386
      
      Q-Q Plot

    3. 残差分析もお忘れなく
      • 回帰直線の係数が求まったらそれでおしまい?

      • 仮定が3つあったはず
        • 関係性は直線=線形を仮定する
        • 誤差の分布は正規分布を仮定する
        • 測定の場所によらず、残差は同一の分布であることを仮定する

      • 仮定が成り立っているかは確認せねば。どうやって?
        • もし、残差が何らかの傾向を示しているなら、直線=線形関係ではないのかもしれないと疑う必要がある。 ==> バナナカーブ
        • 測定する場所で残差の傾向が異なるなら、残差の分布が同一とは言えないかもしれない。 ==> 順に広がっているラッパカーブ
        • 残差のヒストグラム、箱ひげ図で偏りが判定できる。
        • Q-Q プロットの斜め直線に乗っていれば正規分布と言える。ズレが大きいようだと検討の余地がある。
          • 程度問題ではあるが、少しぐらいの逸脱は許容範囲と言える。
          • 残差が正規分布をするということを意識してもらえば良い。

    4. この分析のまとめ(結果の見方)
      • 対象になったのは 530名。

      • 説明変量が予測に役立っているか?
        • 回帰に役立っているか : 「Analysis of Variance」中の「Pr > F」 : 小さいと有意(役立っている)
            [この例] 1% 未満(0.01%) なので役に立っていると言える。

      • 決定係数 : Adj R-Sq(Adjusted R-squared)(相関係数 : R)
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。
            [この例] 44% 程(約半分)を説明できている。

      • 回帰係数 : Parameter Estimates
          [この例] a=-79.2, b=0.820

      • 説明変数が予測に役立っているか?
        回帰係数の検定(係数=0 か?) : Pr > |t|) : 小さいと有意(係数=0ではないと言える)
          [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか?

        • [この例] 残差には概ね傾向は見られない。 ただし体重の大きい 5例程度は要確認。場合によっては外れ値として除外も。

  2. 有効桁数に注意せよ : どこまでが「意味ある桁」か?
    測定精度上回る計算結果は出せても、意味はない。
    [重要な注意] 統計ソフトは単なる道具。使いこなすのは各自。
      [例1] 四捨五入の数値で考えてみれば : 精度(正確さ)が異なることに注意
        12.3 <=== 12.25~12.34
        12  <=== 11.5 ~12.4

        67.8 <=== 67.75~67.84
        68  <=== 67.5 ~68.4

      [例2] 日本の観測史上の最高気温は、 2018(平成30)年7月23日に熊谷市で観測された41.1度であり、 最低気温は、1902(明治35)年1月25日に北海道旭川市の-41度であった。===> -41.0度
    なお、参考までに最高気温の2位は41.0度で岐阜県の美濃市と金山町の2ヶ所。
      [例3] 2001年のイチロー選手の打率は3割5分であり、 2006年は3割3分1厘であった。===> 3割5分0厘

  3. 重回帰分析 : 予測等に使う、連続変量の関係

    1. SASプログラム : Reg0402.sas

    2. 出力結果 : Reg0402-Results.txt , Reg0402-Output.html
      • 散布図の見方にはややコツが必要: アルファベットで個数を表している
                                            Sunday, October 24, 2021 10:05:25 PM  84
      The REG Procedure
      Model: MODEL1
      Dependent Variable: taijyuu 
      
      Number of Observations Read         199
      Number of Observations Used         199
      
                                   Analysis of Variance
                                          Sum of           Mean
      Source                   DF        Squares         Square    F Value    Pr > F
      Model                     2          12468     6234.03633     130.20    <.0001
      Error                   196     9384.22383       47.87869                     
      Corrected Total         198          21852                                    
      
      
      Root MSE              6.91944    R-Square     0.5706
      Dependent Mean       60.44774    Adj R-Sq     0.5662
      Coeff Var            11.44698                       
      
      
                              Parameter Estimates
       
                           Parameter       Standard
      Variable     DF       Estimate          Error    t Value    Pr > |t|
      
      Intercept     1     -104.42632       10.63578      -9.82      <.0001
      shintyou      1        0.77095        0.06495      11.87      <.0001
      kyoui         1        0.40189        0.05792       6.94      <.0001
      
                                            Sunday, October 24, 2021 10:05:26 PM  85
                s
                h      t                     k       c
                i      a           j         o       a        t                 r
                n      i    k      i         d       r        s       p         e
                t      j    y      t         u       r        u       r         s
       O   s    y      y    o      a         k       y        u       e         i
       b   e    o      u    u      k         a       e        w       d         d
       s   x    u      u    i      u         i       r        a       2         2
      
        1  F  145.5  42.0  76    自宅生       0             3700  38.2899    3.7101
        2  F  146.7  41.0  85    自宅生   10000  Vodafone   6000  42.8321   -1.8321
        3  F  148.0  43.0  80    自宅生   50000  DoCoMo     4000  41.8248    1.1752
        4  F  150.0  46.0  86             40000                .  45.7781    0.2219
        5  F  151.7  41.5  80    自宅生   35000                .  44.6773   -3.1773
        6  F  152.0  35.0  77    自宅生   60000  DoCoMo     2000  43.7030   -8.7030
        7  F  153.0  46.5  87    下宿生   10000                .  48.4928   -1.9928
        8  F  153.0  55.0  78    自宅生   30000                .  44.8758   10.1242
        9  F  154.4  44.0  75    自宅生    9000  au         2000  44.7494   -0.7494
       10  F  155.0  48.0  83    下宿生  180000                .  48.4271   -0.4271
       11  F  156.0  42.0  85    自宅生       0  DoCoMo    15000  50.0019   -8.0019
       12  F  156.0  46.0  82    自宅生   10000  Vodafone   7000  48.7962   -2.7962
       13  F  156.0  48.0  70    自宅生   30000                .  43.9735    4.0265
       14  F  156.0  49.0  85    自宅生   25000                .  50.0019   -1.0019
       15  F  156.0  50.0  82    自宅生   40000  Vodafone  10000  48.7962    1.2038
      
                                            Sunday, October 24, 2021 10:05:26 PM  86
              Plot of taijyuu*shintyou.  Legend: A = 1 obs, B = 2 obs, etc.
          100 +                                                  A
              |
              |
              |                                            A           A
              |                                       A
              |                                        A           A    A
              |                                            AA
           80 +                                             A
              |                                        A      AA A
              |                                        A      A    AA
      taijyuu |                                         B CC  BAA A B  A
              |                              A        AA   AA AAA   A    A A
              |                               AA   BB  DA  AA ABAA  AA
              |                              A   A  A CEC B AA  B   B   A
           60 +                      A    A   A  AAC  ACB AAA B  A ABA A
              |                           A  A A B  CABBA     BAA
              |                  A    A   AA  A  CACC BBA     A      A
              |                      A B  D  AAB B  AA     A       A
              |                     AB B CA       B
              |              A   A   B A A   BA   A
              |        A  A    A   A A        A
           40 +          A
              |
              |                 A
              |
              |
              |
              |
           20 +
              --+------------+------------+------------+------------+------------+--
               140          150          160          170          180          190
                                             shintyou
      
                                            Sunday, October 24, 2021 10:05:26 PM  87
                Plot of taijyuu*kyoui.  Legend: A = 1 obs, B = 2 obs, etc.
          100 +                                                             A
              |
              |
              |                                               A     A
              |                                                 A
              |                                                     AB
              |                  A                               A
           80 +                                                  A
              |                                                  B       A A
              |                                           A   A   A A
      taijyuu |                                            AABE AC AA     A
              |                                        A  A   FC
              |                                        AAAC DBBBAB     A
              |                                        C  B CCGB B  A
           60 +        A                              BC  DAGBD A
              |                                     A  A AFCBAC
              |                        A         A  A ACB HAA BA
              |                             A    A  B  ACCCB A
              |                                  A  A  ABBC A
              |                                     A  DAAAAA
              |                                     C  B  A
           40 +                                           A
              |
              |                                      A
              |
              |
              |
              |
           20 +
              --+------------+------------+------------+------------+------------+--
               20           40           60           80           100          120
                                               kyoui
      
                                            Sunday, October 24, 2021 10:05:26 PM  88
                Plot of pred2*taijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
           |
      P    |
      r 80 +
      e    |                                                A                     A
      d    |                                      A                  A  A
      i    |                                A           A            A
      c    |                                      AABB
      t 70 +                              C   BAA    AB  A  B
      e    |                         A    B A  A AB B   A  A  A A  A
      d    |                           A  B BB CA A B B                 A
           |                      A  AAABAAADA   B  BAA                A
      V    |                         AA A DA BBBAABA    A
      a 60 +                      AAA AAC AABA D
      l    |                    A AD F A  C BA A
      u    |                  B  BA A BAA  A   A  A
      e    |                BB ACA   A A A
           |            A      CB  B      AA
      o 50 +            A   AABAA AA
      f    |               AAAA AA  A                             A
           |                A
      t    |     A      A A   A      A
      a    |           A A
      i 40 +
      j    |            A                 A
      y    |
      u    |
      u    |
        30 +
           |
           -+---------+---------+---------+---------+---------+---------+---------+-
           30        40        50        60        70        80        90        100
                                            taijyuu
      
                                            Sunday, October 24, 2021 10:05:26 PM  89
               Plot of resid2*shintyou.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         40 +
            |                                              A
            |
            |
         30 +
            |
            |                                         A    A
            |                                         A           A
      R  20 +
      e     |                                          A
      s     |                                                A          A
      i     |                               A                A      A
      d  10 +                  A   A                   A                 A
      u     |                                B      A AAA BB  A A
      a     |                      A     C     AA   B AE  A A B      A
      l     |        A               AA     A   A  B  ABA  C  BB A   A
          0 +-----------A--A-----AAB-----AA-A--ABA-BA-BEB---A--A-BAAA-A-------------
            |         A      A A   AA D CC  AB  AA BDAACD B  BBA     B  A  A
            |                           AA     BC  BB AAA AA AC ABB  A
            |                 A    A        AA  AC   AAAA  A  AA    ABA     A
        -10 +                               AA                       B  A
            |                                                       A A  A
            |
            |
        -20 +
            |
            -+-------------+-------------+-------------+-------------+-------------+
            140           150           160           170           180          190
                                            shintyou
      
                                            Sunday, October 24, 2021 10:05:26 PM  90
                Plot of resid2*kyoui.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         40 +
            |                  A
            |
            |
         30 +
            |
            |                                                 A  A
            |       A                                                        A
      R  20 +
      e     |                                                         A
      s     |                                                     A  A
      i     |                                                 A   A   A
      d  10 +                                         A       B      A
      u     |                         A               A      DC   B        A
      a     |                                   B      D  AEAAC  A A
      l     |                                       A  A BAABBABA C AB
          0 +------------------------------A----A---B--CBABEBBGA--A--A-----AA-------
            |                                       A  GBBAOACGBABA     A
            |                                       A ACABBCBFC   B
            |                                       BA BCA F ABAA
        -10 +                                       A      ABA
            |                                       A   A       A
            |
            |
        -20 +
            |
            -+-------------+-------------+-------------+-------------+-------------+
            20            40            60            80            100          120
                                              kyoui
      
                                            Sunday, October 24, 2021 10:05:26 PM  91
               Plot of resid2*taijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         40 +
            |                                                      A
            |
            |
         30 +
            |
            |                                                           AA
            |                              A                                       A
      R  20 +
      e     |                                                       A
      s     |                                                    A       A
      i     |                                      A           A      A
      d  10 +                         A     A            A            A
      u     |                        A     A    A   AAAC    AB
      a     |                  A  A     A A AAA E AB B   AA
      l     |            A         AA        BABBABA CAB
          0 +-------------AA-A-AAB--B-ABBA-DAAC-AAAB--B--A---A----------------------
            |           AA  ABBBCCAA ADAAC DBDB C  AAB
            |                   ABB DACA CAC C  AA
            |     A      A   ABB A BA AAB  B   B   A
        -10 +            A   A             C
            |                      A  A      A
            |
            |
        -20 +
            |
            -+---------+---------+---------+---------+---------+---------+---------+
            30        40        50        60        70        80        90       100
                                             taijyuu
      
      
      Q-Q Plot

    3. 残差分析もお忘れなく
      • 回帰直線の係数が求まったらそれでおしまい?

      • 仮定が3つあったはず
        • 関係性は直線=線形を仮定する
        • 誤差の分布は正規分布を仮定する
        • 測定の場所によらず、残差は同一の分布であることを仮定する

      • 仮定が成り立っているかは確認せねば。どうやって?
        • もし、残差が何らかの傾向を示しているなら、直線=線形関係ではないのかもしれないと疑う必要がある。 ==> バナナカーブ
        • 測定する場所で残差の傾向が異なるなら、残差の分布が同一とは言えないかもしれない。 ==> 順に広がっているラッパカーブ
        • 残差のヒストグラム、箱ひげ図で偏りが判定できる。
        • Q-Q プロットの斜め直線に乗っていれば正規分布と言える。ズレが大きいようだと検討の余地がある。
          • 程度問題ではあるが、少しぐらいの逸脱は許容範囲と言える。
          • 残差が正規分布をするということを意識してもらえば良い。

    4. この分析のまとめ(結果の見方)
      • 対象になったのは 199名。

      • 説明変量が予測に役立っているか?
        • 回帰に役立っているか : 「Analysis of Variance」中の「Pr > F」 : 小さいと有意(役立っている)
            [この例] 1% 未満(0.01%) なので役に立っていると言える。

      • 決定係数 : Adj R-Sq(Adjusted R-squared)(相関係数 : R)
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。
            [この例] 56.6% 程(約半分)を説明できている。

      • 回帰係数 : Parameter Estimates
          [この例] a=-104.4(定数項), b=0.7710(身長), c=0.4019(胸囲)

      • 説明変数が予測に役立っているか?
        回帰係数の検定(係数=0 か?) : Pr > |t|) : 小さいと有意(係数=0ではないと言える)
          [この例] 3つとも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか?

        • [この例] 残差には概ね傾向は見られない。 ただし残差が20を超える辺りの5サンプルほどは(少なくとも)分布を乱しているように見える。加えて、今頃になってだが、胸囲が50cm未満の者が2サンプルある。===> 外れ値か? 吟味が必要。

  4. 外れ値への対応: 集団と異なったふるまいをするサンプル

    1. SASプログラム : Reg0403.sas

    2. 出力結果 : Reg0403-Results.txt , Reg0403-Output.html : 以下は関係する部分だけを表示してある
                                            Sunday, October 24, 2021 10:20:13 PM 108
      The REG Procedure
      Model: MODEL1
      Dependent Variable: taijyuu 
      
      Number of Observations Read         190
      Number of Observations Used         190
      
                                   Analysis of Variance
                                          Sum of           Mean
      Source                   DF        Squares         Square    F Value    Pr > F
      Model                     2          10875     5437.31452     217.73    <.0001
      Error                   187     4669.99539       24.97324                     
      Corrected Total         189          15545                                    
      
      Root MSE              4.99732    R-Square     0.6996
      Dependent Mean       59.41368    Adj R-Sq     0.6964
      Coeff Var             8.41106                       
      
                              Parameter Estimates
                           Parameter       Standard
      Variable     DF       Estimate          Error    t Value    Pr > |t|
      Intercept     1     -100.47535        8.03701     -12.50      <.0001
      shintyou      1        0.61679        0.04899      12.59      <.0001
      kyoui         1        0.64585        0.05742      11.25      <.0001
      
                                            Sunday, October 24, 2021 10:20:13 PM 109
                s
                h      t                     k       c
                i      a           j         o       a        t                 r
                n      i    k      i         d       r        s       p         e
                t      j    y      t         u       r        u       r         s
       O   s    y      y    o      a         k       y        u       e         i
       b   e    o      u    u      k         a       e        w       d         d
       s   x    u      u    i      u         i       r        a       3         3
      
        1  F  145.5  42.0  76    自宅生       0             3700  38.3515    3.6485
        2  F  146.7  41.0  85    自宅生   10000  Vodafone   6000  44.9043   -3.9043
        3  F  148.0  43.0  80    自宅生   50000  DoCoMo     4000  42.4768    0.5232
        4  F  150.0  46.0  86             40000                .  47.5855   -1.5855
        5  F  151.7  41.5  80    自宅生   35000                .  44.7589   -3.2589
        6  F  152.0  35.0  77    自宅生   60000  DoCoMo     2000  43.0064   -8.0064
        7  F  153.0  46.5  87    下宿生   10000                .  50.0817   -3.5817
        8  F  153.0  55.0  78    自宅生   30000                .  44.2691   10.7309
        9  F  154.4  44.0  75    自宅生    9000  au         2000  43.1950    0.8050
       10  F  155.0  48.0  83    下宿生  180000                .  48.7319   -0.7319
       11  F  156.0  42.0  85    自宅生       0  DoCoMo    15000  50.6404   -8.6404
       12  F  156.0  46.0  82    自宅生   10000  Vodafone   7000  48.7028   -2.7028
       13  F  156.0  48.0  70    自宅生   30000                .  40.9526    7.0474
       14  F  156.0  49.0  85    自宅生   25000                .  50.6404   -1.6404
       15  F  156.0  50.0  82    自宅生   40000  Vodafone  10000  48.7028    1.2972
      
                                            Sunday, October 24, 2021 10:20:13 PM 113
               Plot of resid3*shintyou.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         15 +                                          A
            |                                                A
            |
            |                                                A
            |                  A                       A
         10 +                               AA
            |                                          A  B   A      A
            |                            A   A          A  B  A A
      R     |                      B                B B
      e     |                                       A  D  A      A
      s   5 +                                   A      BA   A  A
      i     |        A                   B     A      AB      A
      d     |                             A     A  A  A    A         AA
      u     |                        AA         A  A  AA   A   A
      a     |           A        A A     B      AA A   A      CA B
      l   0 +--------------------------------------AA--BB--AAA-----A----A--A--------
            |                     A   A               AAC A   A  AA AA
            |              A       A  A AA  BA AAA AAAA    A  AA AA  B
            |                A     AA B BA  AA AAA AA  CA A  AA A     A
            |         A        A                B  BA      A  A
         -5 +                           A      A    BA  A A  AA   A AB
            |                            A  AB        A A      A            A
            |                                   AB                  AB
            |                 A                                         A
            |                      A        A          A              A
        -10 +                                                            A
            |
            -+-------------+-------------+-------------+-------------+-------------+
            140           150           160           170           180          190
                                            shintyou
      
                                            Sunday, October 24, 2021 10:20:13 PM 114
                Plot of resid3*kyoui.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         15 +                                                         A
            |                                                 A
            |
            |                                                 A
            |                         A                A
         10 +                         A                A
            |                            B      A   A A
            |              A                         AAB      AA
      R     |              A             B      A      B
      e     |    A                       A      BA A   A
      s   5 +              A                 A A   A   B
      i     |                     AA     A      A   A        A   A              A
      d     |                            A  A       A AAA A
      u     |                                A AAA A  AA   A
      a     |                     AA     B  A  BA  AA AA      B   A
      l   0 +----------------------------A------C------DA-----AA-----A--------------
            |                         A  A   A AAA   ABB     A       A
            |                      A     A  BB ADB AB  B  AA         A             A
            |                     A      G  AB  CB  B  C  A  A A
            |                      A           AC  BA  A
         -5 +                               A   C   A  D      B            A      A
            |                     A      A   A  AA    B    A
            |                      A        B    A AA
            |                        A             A
            |                               A   B         A
        -10 +                                              A
            |
            -+-------------+-------------+-------------+-------------+-------------+
            60            70            80            90            100          110
                                              kyoui
      
                                            Sunday, October 24, 2021 10:20:13 PM 115
               Plot of resid3*taijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         15 +                                                              A
            |                                                           A
            |
            |                                                         A
            |                              A                   A
         10 +                                   A        A
            |                                         A  A  AA A
            |                         A               A    A B     AA
      R     |                      A             AAA  A   A
      e     |                        A            A   B A  B
      s   5 +                              A     A     AAA A
      i     |               A               AA AA     A         A   A
      d     |                           A          AA A B    A
      u     |                          AA     A A A A    B
      a     |                AA    A A  A    A  CA     A A B A
      l   0 +------------------------------A----A--D--B--A-AB-----------------------
            |                      B          BA AD   A    A   A
            |                    A  BBA  A DBAB A A   B   A         A
            |               A   ABB BBAA A AA B CA C
            |              A     A     AD  A    A
         -5 +                       A AA    AA  B A B AA    A
            |               A    AA  A  A   AA           A
            |                      B A A        B
            |        A                          A
            |               A   A          B
        -10 +                                     A
            |
            ---+----------+----------+----------+----------+----------+----------+--
              30         40         50         60         70         80         90
                                             taijyuu
      
      
      Q-Q Plot

    3. この分析のまとめ(結果の見方)
      • 対象になったのは 190名。

      • 説明変量が予測に役立っているか?
        • 回帰に役立っているか : 「Analysis of Variance」中の「Pr > F」 : 小さいと有意(役立っている)
            [この例] 1% 未満(0.01%) なので役に立っていると言える。

      • 決定係数 : Adj R-Sq(Adjusted R-squared)(相関係数 : R)
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。
            [この例] 69.6% 程(約7割)を説明できている。

      • 回帰係数 : Parameter Estimates
          [この例] a=-100.5(定数項), b=0.6168(身長), c=0.6459(胸囲)

      • 説明変数が予測に役立っているか?
        回帰係数の検定(係数=0 か?) : Pr > |t|) : 小さいと有意(係数=0ではないと言える)
          [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか?

        • [この例] 残差には概ね傾向は見られない。 Q-Qプロットでもほぼライン上に絡まるように推移している。

    4. 次なる一手としては: 特徴に基づいて分割
      • 男女別に分析してみる。体格が異なることが明確なので。

  5. [要約: 回帰分析] 解析する上での注意点

  6. 4つの尺度と回帰分析

  7. 次回は、... : 11月2日 リモート講義(16:20-17:50?)