多変量解析(1) : 回帰分析(前編)

統計モデル解析特論I/II : 第05回 (11/10/20)

  1. 先週のレポートから: 79名

    2. 回帰分析

     今回は、多変量解析の代表的な手法である回帰分析について解説する。

     工学系や農学系の実験等を行う領域では頻繁に使用される手法であるが、 日常的な話題の中でも概念は広く利用されているので、 取っ付き易い手法ではないだろうか。 過去のデータからその構造を把握し、新規に測定されたデータに対する予測を 行ないたいと言うときに、回帰分析は有用である。 構造のシンプルな単回帰分析でこの手法の原理を理解し、 複数の説明変量を用いた重回帰分析に拡張する。 残差の取り方や、その二乗和を最少にするという考えは同じである。

    2.1. アイディア

    散布図にもっともらしい「直線」を当てはめたい。

    • 何に使う?
    • 何に使える?
    • 散布図: 縦軸=体重、横軸=身長

    皆さんから収集した体格データを用いて、散布図を描いてみよう。どういう直線が「もっともらしい」と考えるか?

      [注意] 散布図を丁寧に観るとデータの稠密な部分と疎な部分があることを理解せよ。

    • どの様に直線の位置決めをすれば良い?
    • 一意に決めるにはどの様なアイディアがある?
    • そもそも、どういう考えから導き出された?
    • 回帰分析とは?

    • なぜ僕らは分布の中央付近を通過する直線が相応しいと感じるのか?
    • それはどうやって決めたのか?

    • 「誤差が一番小さい」直線が良さそうだ。
    • では、その「誤差」って何? どう定義する?
    • また、「一番小さい」って何? どう定義する?

    • ユニーク(唯一、一意)に決めるには何らかの定義が要るよね?

  1. 単回帰分析 : 予測等に使う、連続変量の関係
    • 体重を身長で説明(回帰)したい : [体重]=a+b[身長] : 回帰係数
    • 関係性は直線=線形を仮定する
    • 説明される変量 : 目的変数、従属変数、dependent variable
    • 説明する変量 : 説明変数、独立変数、independent variable

    • 誤差の取り方 : 指定された独立変数における測定誤差。だから誤差は垂直方向に分布する。
    • 回帰直線からのズレ(誤差)のことを回帰分析では「残差」と呼ぶ。
    • 残差の分布は正規分布を仮定する
    • 測定の場所によらず、残差は同一の分布であることを仮定する
    • どうやって直線を決める? : 予測誤差の2乗和を最小にする

    • 式の展開、解法。

      直線の方程式: Exp1

      測定値と予測値のズレ: Exp2

      ズレの2乗の和を最小に: Exp3

    • [余談] 回帰分析では「2乗和」を最小にすることを考えるが、「絶対値和」とか「符号付き和(1乗和)」を最小にする方法もアイディアとしてはあり得る。 2乗和だと式の展開が楽になる。

    • 説明する変数の個数
      • 一つ: 単回帰: 身長で説明したい : [体重]=a+b[身長]
      • 複数: 重回帰: 身長と胸囲で説明したい : [体重]=a+b[身長]+c[胸囲]

    1. プログラム : Reg0501.sas

    2. 出力結果 : SAS_out0501a.txt , Results_Reg0501.pdf
      • 散布図の見方にはややコツが必要: アルファベットで個数を表している
                                           Sunday, November  8, 2020 05:17:40 PM 143
      Obs  sex  shintyou  taijyuu  kyoui   jitaku    kodukai  carryer   tsuuwa
        1   F     145.0     38.0      .   自宅生   10000                 . 
        2   F     146.7     41.0     85   自宅生   10000   Vodafone   6000 
        3   F     148.0     42.0      .   自宅生   50000                 . 
        4   F     148.0     43.0     80   自宅生   50000   DoCoMo     4000 
        5   F     149.0     45.0      .   下宿生   60000                 . 
        6   F     150.0     46.0     86            40000                 . 
        7   F     151.0     45.0      .   自宅生   20000   docomo     5000 
        8         151.0     46.0      .   自宅生       0              6500 
        9   F     151.0     50.0      .   下宿生   60000   J-PHONE       . 
       10   F     151.7     41.5     80   自宅生   35000                 . 
      
                                           Sunday, November  8, 2020 05:17:40 PM 144
      The REG Procedure
      Model: MODEL1
      Dependent Variable: taijyuu 
      
      Number of Observations Read         438
      Number of Observations Used         438
      
                                   Analysis of Variance
                                          Sum of           Mean
      Source                   DF        Squares         Square    F Value    Pr > F
      Model                     1          17347          17347     346.83    <.0001
      Error                   436          21807       50.01691                     
      Corrected Total         437          39155                                    
      
      Root MSE              7.07226    R-Square     0.4430
      Dependent Mean       59.56621    Adj R-Sq     0.4418
      Coeff Var            11.87294                       
      
                              Parameter Estimates
                           Parameter       Standard
      Variable     DF       Estimate          Error    t Value    Pr > |t|
      Intercept     1      -78.02833        7.39601     -10.55      <.0001
      shintyou      1        0.81271        0.04364      18.62      <.0001
      
                                           Sunday, November  8, 2020 05:17:43 PM 145
                s
                h      t                     k       c
                i      a           j         o       a        t                r
                n      i    k      i         d       r        s      p         e
                t      j    y      t         u       r        u      r         s
       O   s    y      y    o      a         k       y        u      e         i
       b   e    o      u    u      k         a       e        w      d         d
       s   x    u      u    i      u         i       r        a      1         1
      
        1  F  145.0  38.0   .  自宅生   10000               .  39.8141   -1.8141
        2  F  146.7  41.0  85  自宅生   10000  Vodafone  6000  41.1957   -0.1957
        3  F  148.0  42.0   .  自宅生   50000               .  42.2522   -0.2522
        4  F  148.0  43.0  80  自宅生   50000  DoCoMo    4000  42.2522    0.7478
        5  F  149.0  45.0   .  下宿生   60000               .  43.0649    1.9351
        6  F  150.0  46.0  86           40000               .  43.8776    2.1224
        7  F  151.0  45.0   .  自宅生   20000  docomo    5000  44.6903    0.3097
        8     151.0  46.0   .  自宅生       0            6500  44.6903    1.3097
        9  F  151.0  50.0   .  下宿生   60000  J-PHONE      .  44.6903    5.3097
       10  F  151.7  41.5  80  自宅生   35000               .  45.2592   -3.7592
       11  F  152.0  35.0  77  自宅生   60000  DoCoMo    2000  45.5030  -10.5030
       12  F  152.0  43.0   .  自宅生   20000  au        3500  45.5030   -2.5030
       13  F  152.0  44.0   .           45000  DoCoMo    4000  45.5030   -1.5030
       14  F  153.0  41.0   .  自宅生  125000  No           .  46.3158   -5.3158
       15  F  153.0  42.0   .  下宿生       0  Vodafone  1000  46.3158   -4.3158
      
                                           Sunday, November  8, 2020 05:17:43 PM 146
              Plot of taijyuu*shintyou.  Legend: A = 1 obs, B = 2 obs, etc.
          100 +                                                  A
              |                                             A
              |                                                  A
              |                                            A           A
              |                                       A
              |                                                  A A
              |                                            A                A
           80 +                                             A A        A
              |                                  A     A   AA AAAA
              |                                     B  A      AA   AA A      A
      taijyuu |                                   A    AB EC  BAACA G AA   A
              |                              A        AB  BCB B BA       A A
              |                          A   AA  B BB ACC ABA FCCB CBA AAA
              |                              BAB A  D CHD FCBABBC  ACA AA
           60 +                      A   AA  AA  ABCAABFCACID DBCC ADA AA
              |                       A   A   AA BADDAAFDACBA DCAA
              |                  A    B   DC DCA FBIG BDB CBB F      A
              |               A  A  AB A AC  DEC BCCCAAAA BA  A    A
              |                     BBAB CB      CCBA
              |             AAB  AB  B B AB ABAA  A
              |           B    ABA A BA
           40 +          A       A  A
              |        A
              |                 A
              |
              |
              |
              |
           20 +
              --+------------+------------+------------+------------+------------+--
               140          150          160          170          180          190
                                             shintyou
      
                                           Sunday, November  8, 2020 05:17:43 PM 147
                Plot of pred1*taijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
        80 +
      P    |
      r    |
      e    |
      d    |                                           A
      i    |                                      A   A         A
      c    |                                   A  A
      t 70 +                              AAA AA A  AA   A    A         A
      e    |                         A    DA BBB A  F A A
      d    |                      A     AAC  A BBAA ABA A   A      A A       A    A
           |                          AAB DACAABBBB A A  A  B
      V    |                    A  BAC BB CAAB CABB B   A  A A
      a    |                      A BB ABAICBCAAAACAAAB   AA  A   A     A       A
      l    |                    BA CAADBBADBGAABA B CBB
      u 60 +                     AA BCC DAG BEECA BAA   A   A          A
      e    |                  A B BAAEBCAAA CA B        AA
           |                 AE A EBDEBABACA   B    A
      o    |               A  C CB AAEA B  A ABB            A
      f    |                BA   CFBBBA A B B AB  A
           |                 A     BA  A
      t    |               B ABCC AA C   AA    A
      a 50 +             A  B ABA  A A A
      i    |           AB  AA CABA         A
      j    |              A B
      y    |     A     ABAA  A  A    A
      u    |               AB   A
      u    |            AA A
           |           A
        40 +        A
           -+---------+---------+---------+---------+---------+---------+---------+-
           30        40        50        60        70        80        90        100
                                            taijyuu
      
                                           Sunday, November  8, 2020 05:17:43 PM 148
               Plot of resid1*shintyou.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         40 +
            |
            |                                                A
            |                                                     A
         30 +                                         A
            |                                              A      A
            |
            |                                   A          A
      R  20 +                                                       A   A
      e     |                                       A  A     A    A
      s     |                           A   A       A  A      A
      i     |                      A        A    A         AA A AAA
      d  10 +                           A   AA  B     AAB CB  A A       A    A
      u     |                  A     A   A  BA BA  BB AB  BBA  A    A
      a     |               A        A   A   A  A   A AFC BC AD  ABA A A
      l     |             AAA  A  A  A   CA AA  BB CD BEA BB ACA BB  G
          0 +---------A-B---A--AAABD--A-AAB-CC-BDA-BAABFF-EC-BEC-CB----AA---A--A----
            |       A         B  A A AB CC  DE  BB HHBAD ABI EAAA   CBA  A A
            |                A B    A B AB A   CBAAFB AFDACBA EBAD  ACA B   A
            |                     AB A   B  BA  CA  CAAAB AB  BB AD AD   A A
        -10 +                 A                A D BA   A CA BF A     A AA
            |                                             A           A
            |                                                 A     A
            |
        -20 +
            |
            -+-------------+-------------+-------------+-------------+-------------+
            140           150           160           170           180          190
                                            shintyou
      
                                           Sunday, November  8, 2020 05:17:43 PM 149
               Plot of resid1*taijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
            |
            |
         40 +
            |
            |                                                                    A
            |                                                                      A
         30 +                                                           A
            |                                                            A    A
            |
            |                                                A     A
      R  20 +                                                         A  A
      e     |                                             A  A A    A
      s     |                                   A  A     B    A
      i     |                               A   A    A     ABC
      d  10 +                              A   AC   ABBD AA    A A
      u     |                         A A AA BABDA BACAA A
      a     |                    A    A A  AA AEDAAG CBA AA
      l     |               AB   AA AAD  CADAEFBBBCC G A
          0 +-----------AAA-ABACAC-AEBFBACBIBIEAECB--AAAA---------------------------
            |        A    AB A AECCFADJECDBKDBA DABA
            |           AB  ABBB CBECDCFCF GABCCA  A
            |           ABA BBAC CACAAC CCAFAA  A
        -10 +     A         A AF AAADCCA   BA
            |                    A    A
            |                    A A
            |
        -20 +
            |
            -+---------+---------+---------+---------+---------+---------+---------+
            30        40        50        60        70        80        90       100
                                             taijyuu
      
                                           Sunday, November  8, 2020 05:17:43 PM 150
      The UNIVARIATE Procedure
      Variable:  resid1  (Residual)
                                  Moments
      N                         438    Sum Weights                438
      Mean                        0    Sum Observations             0
      Std Deviation      7.06416668    Variance            49.9024508
      Skewness           1.33449894    Kurtosis            3.49025643
      Uncorrected SS      21807.371    Corrected SS         21807.371
      Coeff Variation             .    Std Error Mean      0.33753894
      
                    Basic Statistical Measures
          Location                    Variability
      Mean      0.00000     Std Deviation            7.06417
      Median   -1.03812     Variance                49.90245
      Mode     -2.56988     Range                   50.06353
                            Interquartile Range      7.68895
      
      Note: The mode displayed is the smallest of 2 modes with a count of 6.
      
                 Tests for Location: Mu0=0
      Test           -Statistic-    -----p Value------
      Student's t    t         0    Pr > |t|    1.0000
      Sign           M       -29    Pr >= |M|   0.0064
      Signed Rank    S   -5520.5    Pr >= |S|   0.0371
      
                                           Sunday, November  8, 2020 05:17:44 PM 151
      The UNIVARIATE Procedure
      Variable:  resid1  (Residual)
      
                         Tests for Normality
       
      Test                  --Statistic---    -----p Value------
      Shapiro-Wilk          W     0.923698    Pr < W     <0.0001
      Kolmogorov-Smirnov    D      0.08988    Pr > D     <0.0100
      Cramer-von Mises      W-Sq   1.00375    Pr > W-Sq  <0.0050
      Anderson-Darling      A-Sq  6.107932    Pr > A-Sq  <0.0050
      
      Quantiles (Definition 5)
       
      Level          Quantile
      100% Max       34.61741
      99%            27.43012
      95%            12.80470
      90%             8.86493
      75% Q3          3.24282
      50% Median     -1.03812
      25% Q1         -4.44612
      10%            -8.06823
      5%             -9.19530
      1%            -11.19530
      0% Min        -15.44612
      
                                           Sunday, November  8, 2020 05:17:44 PM 152
      The UNIVARIATE Procedure
      Variable:  resid1  (Residual)
      
                 Extreme Observations
       
      ------Lowest-----        -----Highest-----
         Value      Obs           Value      Obs
      -15.4461      393         27.4301      304
      -14.1953      321         28.3666      390
      -13.6652      418         28.9371      197
      -11.7572      252         33.3666      391
      -11.1953      323         34.6174      319
      
      
      Q-Q Plot

    3. 残差分析もお忘れなく
      • 回帰直線の係数が求まったらそれでおしまい?

      • 仮定が3つあったはず
        • 関係性は直線=線形を仮定する
        • 誤差の分布は正規分布を仮定する
        • 測定の場所によらず、残差は同一の分布であることを仮定する

      • 仮定が成り立っているかは確認せねば。どうやって?
        • もし、残差が何らかの傾向を示しているなら、直線=線形関係ではないのかもしれないと疑う必要がある。 ==> バナナカーブ
        • 測定する場所で残差の傾向が異なるなら、残差の分布が同一とは言えないかもしれない。 ==> 順に広がっているラッパカーブ
        • 残差のヒストグラム、箱ひげ図で偏りが判定できる。
        • Q-Q プロットの斜め直線に乗っていれば正規分布と言える。ズレが大きいようだと検討の余地がある。
          • 程度問題ではあるが、少しぐらいの逸脱は許容範囲と言える。
          • 残差が正規分布をするということを意識してもらえば良い。

    4. この分析のまとめ(結果の見方)
      • 対象になったのは 438名。

      • 説明変量が予測に役立っているか?
        • 回帰に役立っているか : 「Analysis of Variance」中の「Pr > F」 : 小さいと有意(役立っている)
            [この例] 1% 未満(0.01%) なので役に立っていると言える。

      • 決定係数 : Adj R-Sq(Adjusted R-squared)(相関係数 : R)
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。
            [この例] 44% 程(約半分)を説明できている。

      • 回帰係数 : Parameter Estimates
          [この例] a=-78.0, b=0.813

      • 説明変数が予測に役立っているか?
        回帰係数の検定(係数=0 か?) : Pr > |t|) : 小さいと有意(係数=0ではないと言える)
          [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

      • 残差の性質 ===> 正規性 : 残差プロット、残差解析
        • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
        • この仮定が覆ると、回帰分析として成立していないことになる。
        • 残差が正規分布をしているか確認する必要がある。
        • 均等に散らばっているか?
        • 傾向はないか?

        • [この例] 残差には概ね傾向は見られない。 ただし体重の大きい 5例程度は要確認。場合によっては外れ値として除外も。

  2. 有効桁数に注意せよ : どこまでが「意味ある桁」か?
    測定精度上回る計算結果は出せても、意味はない。
    [重要な注意] 統計ソフトは単なる道具。使いこなすのは各自。
      [例1] 四捨五入の数値で考えてみれば : 精度(正確さ)が異なることに注意
        12.3 <=== 12.25〜12.34
        12  <=== 11.5 〜12.4

        67.8 <=== 67.75〜67.84
        68  <=== 67.5 〜68.4

      [例2] 日本の観測史上の最高気温は、 2018(平成30)年7月23日に熊谷市で観測された41.1度であり、 最低気温は、1902(明治35)年1月25日に北海道旭川市の-41度であった。===> -41.0度
    なお、参考までに最高気温の2位は41.0度で岐阜県の美濃市と金山町の2ヶ所。
      [例3] 2001年のイチロー選手の打率は3割5分であった。 2006年は3割3分1厘であった。===> 3割5分0厘

  3. 重回帰分析 : 2変量以上の説明する変量(説明変量)で 1変量(目的変量)を説明
    • 説明変量が複数になる : 単 ===> 重
    • 体重を身長と胸囲で説明(回帰)したい : [体重]=a+b[身長]+c[胸囲] : 回帰係数
      • 説明される変量 : 目的変数、従属変数、dependent variable
      • 説明する変量 : 説明変数、独立変数、independent variable

    • アイディアは単回帰分析の時と全く同じ。
      • 関係性は直線=線形を仮定する
      • 回帰直線からのズレ(誤差)のことを回帰分析では「残差」と呼ぶ。
      • 説明される変量(目的変量)と平行に残差を取る。なぜなら、指定された独立変数における測定誤差だから。
      • 残差の分布は正規分布を仮定する
      • 測定の場所によらず、残差は同一の分布であることを仮定する
      • 残差の二乗和を最小にする(最小二乗法)

  4. 外れ値への対応: 集団と異なったふるまいをするサンプル
    • 吟味する: なぜ外れている? 入力ミス?
    • どう対応する: 外す、修正する、数理モデルが不適当?

  5. 次回は、... : 11月17日 リモート講義(16:20-17:50?)
    • 多変量解析(2) : 回帰分析(後編)