多変量解析(1) : 回帰分析

統計モデル解析特論I/II : 第03回 (10/17/23)

    1. ショート課題の回答から

    1. 第2回のショート課題: 58名
      • 回答の内、「公開可」とした48名分は掲載済み。10/12 20:30掲載。
        • ショート課題の直後に配置。
        • 行頭文字コードで並べ替えを行った。よって並び順は学籍番号や提出順とは無関係であり、番号は便宜的に振ったものに過ぎない。
        • 皆さんのご意見にはいろいろな示唆が含まれていて読み応えがある。
          • より「受験学年に近い」若者の意見は参考になる。
          • 入試や大規模共通試験等に対する「哲学」を感じる言も。
        • 「絶対的な正解」はない。ご自身のご意見・お考えをお聞かせいただければ。

      • 共通テスト: 多くは「必要」とのご意見。「不要」とのご意見も含めて理由は様々。
        • 測定の目的、子供の勉強への影響、公平性、教育費への影響、...。

      • 段階表示(Stanine): やや反対が多い
        • 素点かパーセンタイルか、公平性の観点の違い、...。

      • 説明を尽くす必要があったのかも(私のミス)。とは言え時間的制約もあり。
        • 現状、導入経緯、影響、課題、他国の事例、...。
        • 試験で測れる範囲・スキル: 極めて限定領域。受験生の能力の一側面でしかない。

      • [話題提供] : 「必修科目」、「高校の対応遅れ」については...
        1. 「2024年度以降の国立大学の入学者選抜制度―国立大学協会の基本方針―」の公表: 国立大学協会、2022年01月28日
        2. 共通テスト「情報Ⅰ」 受験必須でも合否に使わない? 北大と徳島大 : 朝日新聞、2022年10月12日 .
        3. 大学入学共通テストで「情報」を必須としつつ配点しない入試に対する本会の見解 : 情報処理学会、2022年10月12日 .

    2. 第1回のショート課題: 61名
      1. 所属専攻、学年
      2. ご自身の研究テーマ(現状で可)
      3. 「統計」に抱くイメージや印象
      4. 本講義の受講動機
      5. 講義内容についての要望、取り上げて欲しい内容
      6. 既に何か統計ソフトウェアを使っておられるのでしたら、その名称
      7. Q3 のみならず Q4 も受講する予定ですか? (現状で可)
      8. [データ収集] 性別、身長、体重、胸囲、自宅生/下宿生の別、仕送り月額、スマ ホの月額通信料
      9. 質問、その他お気づきの点があれば何なりとお聞かせください。

      • 61名から多様なご回答。場合によってはご質問。全部は紹介し切れない。
      • 統計の面白さの一端がお伝えできれば。現実は?

      • 単純集計: a2, g, h1, h5, h2, h3, h4, h6, h7 (上記下線部分)

      • データのスクリーニング: 私は重要だと考えている
        • 「cm, kg, 円」、「わかりません」等の文字列の削除。場合によってはinchをcmに変換、全角文字を半角文字に変換等。
        • 無回答と0円の区別: 明示的に入力してもらわない限り欠損値として扱わざるを得ない。
        • 単位を指定していないことへの懸念。

      • その他の項目の回答: b、c、d、e、f、i

    2. 回帰分析

     今回は、多変量解析の代表的な手法である回帰分析について解説する。

     工学系や農学系の実験等を行う領域では頻繁に使用される手法であるが、 日常的な話題の中でも概念は広く利用されているので、取っ付き易い手法ではないだろうか。近年は機械学習等でも取り扱われていると思う。過去のデータからその構造を把握し、新規に測定されたデータに対する予測を 行ないたいと言うときに、回帰分析は有用である。 構造のシンプルな単回帰分析でこの手法の原理を理解し、 複数の説明変量を用いた重回帰分析に拡張する。 残差の取り方や、その二乗和を最少にするという考えは同じである。

    2.1. アイディア

    散布図にもっともらしい「直線」を当てはめたい。

    皆さんから収集した体格データを用いて、散布図を描いてみよう。どういう直線が「もっともらしい」と考えるか?

    2.2. ちょっとしたテクニック

    以下は得られたデータをそのままプロットしたものである。 今回取り扱った身長や体重は記憶に頼っている部分もあり離散量として回答されているので、 そのままプロットすると、同じポイントは重なって表示され(重なっている個数は読み取れない)、また、「縞模様」状になってしまう。 そこで、一種のテクニックとして、各プロット点に微小な乱数を乗せて (微妙に揺らして)描画すると密度が視覚的に理解できる。
    言うまでも無いだろうが、あくまでもプロットする際のテクニックであり、 (回帰)分析に用いるデータに乱数を付加しているわけではない。


    1. 単回帰分析 : 予測等に使う、連続変量の関係
      • 体重を身長で説明(回帰)したい : [体重]=a+b[身長] : 回帰係数
      • 両者の関係性は直線=線形を仮定する
      • 説明される変量 : 目的変数、従属変数、dependent variable
      • 説明する変量 : 説明変数、独立変数、independent variable

      • 誤差の取り方 : 指定された独立変数における測定誤差。だから誤差は垂直方向に分布する。
      • 回帰直線からのズレ(誤差)のことを回帰分析では「残差」と呼ぶ。
      • 残差の分布は正規分布を仮定する
      • 測定の場所によらず、残差は同一の分布であることを仮定する
      • どうやって直線を決める? : 予測誤差の2乗和を最小にする

      • 式の展開、解法。

        直線の方程式: Exp1

        測定値と予測値のズレ: Exp2

        ズレの2乗の和を最小に: Exp3

      • [余談] 回帰分析では「2乗和」を最小にすることを考えるが、「絶対値和」とか「符号付き和(1乗和)」を最小にする方法もアイディアとしてはあり得る。 2乗和だと式の展開が楽になる。

      • 説明する変数の個数
        • 一つ: 単回帰: 身長で説明したい : [体重]=a+b[身長]
        • 複数: 重回帰: 身長と胸囲で説明したい : [体重]=a+b[身長]+c[胸囲]

      1. プログラム : StatM2303-Reg2.sas

      2. 出力結果 : StatM2303-Reg2_Results.txt , StatM2303-Reg2-Results.html
        • 散布図の見方にはややコツが必要: アルファベットで個数を表している
                                              Friday, October 13, 2023 10:40:53 PM  14
        
        Obs No Xsex Xshintyou Xtaijyuu Xkyoui  Xjitaku  Xkodukai Xcarryer Xtsuushin
          1  2  F     145.5      42      76   自宅生          0              3700  
          2  3  F     146.7      41      85   自宅生      10000  Vodafone    6000  
          3  4  F     148.0      42       .   自宅生      50000                 .  
          4  5  F     148.0      43      80   自宅生      50000  DoCoMo      4000  
          5  6  F     148.9       .       .   自宅生      60000                 .  
          6  7  F     149.0      45       .   下宿生      60000                 .  
          7  8  F     150.0      43      82   自宅生          0              4980  
          8  9  F     150.0      46      86               40000                 .  
          9 10  F     150.0      47       .   自宅生          .                 .  
         10 11  F     151.0      42       .   自宅生          .              7700  
        
                                              Friday, October 13, 2023 10:40:53 PM  15
        The MEANS Procedure
        Variable    Label               N           Mean        Std Dev        Minimum
        ------------------------------------------------------------------------------
        No                            771    387.0000000    222.7128196      2.0000000
        Xshintyou   身長              731    168.9127223      7.6696066    145.5000000
        Xtaijyuu    体重              676     59.9954142      9.4703651     35.0000000
        Xkyoui      胸囲              239     86.0845188      9.6981443     30.5000000
        Xkodukai    仕送り月額        620       36328.77       45404.14              0
        Xtsuushin   月額通信料        402        5359.08        3985.83              0
        ------------------------------------------------------------------------------
        
        Variable    Label                  Maximum
        ------------------------------------------
        No                             772.0000000
        Xshintyou   身長               187.0000000
        Xtaijyuu    体重               100.0000000
        Xkyoui      胸囲               112.0000000
        Xkodukai    仕送り月額           350000.00
        Xtsuushin   月額通信料            35918.00
        ------------------------------------------
        
                                              Friday, October 13, 2023 10:40:53 PM  16
        The REG Procedure
        Model: MODEL1
        Dependent Variable: Xtaijyuu 体重
        
        Number of Observations Read                        771
        Number of Observations Used                        675
        Number of Observations with Missing Values          96
        
                                     Analysis of Variance
                                            Sum of           Mean
        Source                   DF        Squares         Square    F Value    Pr > F
        Model                     1          25864          25864     502.93    <.0001
        Error                   673          34610       51.42634                     
        Corrected Total         674          60474                                    
        
        Root MSE              7.17122    R-Square     0.4277
        Dependent Mean       60.00741    Adj R-Sq     0.4268
        Coeff Var            11.95055                       
        
                                    Parameter Estimates
                                       Parameter      Standard
        Variable    Label       DF      Estimate         Error   t Value   Pr > |t|
        Intercept   Intercept    1     -81.41528       6.31222    -12.90     <.0001
        Xshintyou   身長         1       0.83423       0.03720     22.43     <.0001
        
                                              Friday, October 13, 2023 10:40:54 PM  18
                   X                                      X
                   s     X                 X      X       t
                   h     t         X       k      c       s
                   i     a   X     j       o      a       u              r
                   n     i   k     i       d      r       u     p        e
               X   t     j   y     t       u      r       s     r        s
         O     s   y     y   o     a       k      y       h     e        i
         b   N e   o     u   u     k       a      e       i     d        d
         s   o x   u     u   i     u       i      r       n     1        1
          1  2 F 145.5 42.0 76 自宅生        0          3700 39.9659  2.03412
          2  3 F 146.7 41.0 85 自宅生    10000 Vodafone 6000 40.9670  0.03304
          3  4 F 148.0 42.0  . 自宅生    50000             . 42.0515 -0.05146
          4  5 F 148.0 43.0 80 自宅生    50000 DoCoMo   4000 42.0515  0.94854
          5  6 F 148.9   .   . 自宅生    60000             . 42.8023   .     
          6  7 F 149.0 45.0  . 下宿生    60000             . 42.8857  2.11430
          7  8 F 150.0 43.0 82 自宅生        0          4980 43.7199 -0.71993
          8  9 F 150.0 46.0 86           40000             . 43.7199  2.28007
          9 10 F 150.0 47.0  . 自宅生        .             . 43.7199  3.28007
         10 11 F 151.0 42.0  . 自宅生        .          7700 44.5542 -2.55417
         11 12 F 151.0 45.0  . 自宅生    20000 docomo   5000 44.5542  0.44583
         12 13   151.0 46.0  . 自宅生        0          6500 44.5542  1.44583
         13 14 F 151.0 50.0  . 下宿生    60000 J-PHONE     . 44.5542  5.44583
         14 15 F 151.0   .   . 下宿生        .             . 44.5542   .     
         15 16 F 151.7 41.5 80 自宅生    35000             . 45.1381 -3.63813
        
                                              Friday, October 13, 2023 10:40:54 PM  19
               Plot of Xtaijyuu*Xshintyou.  Legend: A = 1 obs, B = 2 obs, etc.
                |
            100 +                                             A    B
                |                                                  A
                |                                       A    A    A      A
                |                                        B   A     A A    B
             80 +                                  A A   B  A B AAAA A   A    A
        体      |                                     B  AB AAA CA A CB B     AA
        重      |                           A  AA   AAA AEE GHC JEGFA KAABAA C
                |                          A   DAC F DD ENF EJC IFGB DIB DAA
             60 +                      A   AA  BFA CBJHAGNKBLPGBKCIF AHA AB
                |                  B    C   HC GDE KGLWBGKI FDB HB A  AA
                |               A  A  CDBG EIA EFD JHGEBACA CA  A    A
                |           A ACB CABA BAC AD ABCA AA A A
             40 +        A AA   AA B  ABA       B
                |                 A
                |
                |
             20 +
                |
                --+------------+------------+------------+------------+------------+--
                 140          150          160          170          180          190
                                                身長
        NOTE: 96 obs had missing values.
        
                                              Friday, October 13, 2023 10:40:54 PM  20
                 Plot of pred1*Xtaijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
           80 +
              |
              |                                           A
              |                                      A A A  A      A
        pred1 |                              AAAABB AA B A  A    A    A A  A
              |                      A  B  AAEBADCFAABAHAA CBA   A      A
              |                          B CAFBC BBCBEACBCA A  C      A    A    A  A A
              |                    A  BCC CG KBBDAFCCEAEBE AA A AA A               A
              |                    BABEBDDDECQFJDDEDDEAFDDAAAAA A    A     A
           60 +               A    AADBCHEBFBIAEFFEABBAC   A   B      B   A
              |                 BFAEAGEHMHHEBGBDB E AB A   AA    A
              |           A  ACA D GFCDDFCCE CAABBF    A       A
              |            A   AB AAACFBAAA  A AAAB  A
              |               CCBCEECEB D A AA    A      A
              |        A  ABA AA DABB A A A   A
              |           AA A BA  A    A A
              |     A      BBABBA  A
              |            AA A
           40 +           AA
              -+---------+---------+---------+---------+---------+---------+---------+
              30        40        50        60        70        80        90       100
                                               体重
        NOTE: 96 obs had missing values.
        
                                              Friday, October 13, 2023 10:40:54 PM  21
                Plot of resid1*Xshintyou.  Legend: A = 1 obs, B = 2 obs, etc.
           40 +
              |
              |                                                A    A
              |                                         A           A
              |                                              A      A
        R     |                                   A  A   B         A
        e  20 +                            A                 A        A   A
        s     |                                A      B  B  A  B    A      A
        i     |                      A    A   A    A     AB  AA B AA  A    A
        d     |                  B        A   DA BCA AA ACD DB  B A A     A
        u     |               A        B   A  BC AB  DC ADB DFAAFC BA CB       A
        a     |        A    AB   A  A  AA  F  AC ACB FE FLE DFABFB ECA A AA
        l   0 +---------A-B--AB-BAAABD-BE-BEC-FD-DGD-DDAEIKAEFABGE-EE--JAABA--A-AA----
              |               AAAA A AA D DFA EF CDC LTCDGBAGO EGAAD  DGA  A AB
              |                  A  AB A   D AB AAIDAEDBBIG DCAAFCAED AEA D  A
              |                 A      A       C ABD BD ACA DB BFAA C  EA AB
              |                                B      A A   A   A      AA
              |                                                       A
          -20 +
              -+-------------+-------------+-------------+-------------+-------------+
              140           150           160           170           180          190
                                               身長
        NOTE: 96 obs had missing values.
        
                                              Friday, October 13, 2023 10:40:54 PM  22
                 Plot of resid1*Xtaijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
           40 +
              |
              |                                                                    A A
              |                                                           A        A
              |                                                            A    A
        R     |                                                A A    B    A
        e  20 +                                          A           A  A  A
        s     |                                        A   AA  BAA A  A A
        i     |                               A   A  A A   BAABBAA    A
        d     |                         A A  A  ABH  BAECDAAB  A A
        u     |                    A    A A AC BCAEADGAHCGACAA     A
        a     |            A  AAA  AAAA DABEAFCFHHJEEGBDBB  B
        l   0 +-----------AABABCADCCDDHEGDFFCPDNFCHECEAJABA-A-------------------------
              |            CAAACBCDFEFFIOLIJCUEDBEFABB A
              |           BBA CBBC ICIGEJDDHAIDADBB
              |     A  A     ACAAGADBDECCBACAEAA
              |           AA  A A  B    B
              |                      A
          -20 +
              -+---------+---------+---------+---------+---------+---------+---------+
              30        40        50        60        70        80        90       100
                                               体重
        NOTE: 96 obs had missing values.
        
                                              Friday, October 13, 2023 10:40:54 PM  23
        The UNIVARIATE Procedure
        Variable:  resid1  (Residual)
                                    Moments
        
        N                         675    Sum Weights                675
        Mean                        0    Sum Observations             0
        Std Deviation      7.16589449    Variance            51.3500439
        Skewness           1.18031619    Kurtosis            2.74035602
        Uncorrected SS     34609.9296    Corrected SS        34609.9296
        Coeff Variation             .    Std Error Mean      0.27581541
        
                      Basic Statistical Measures
            Location                    Variability
        Mean      0.00000     Std Deviation            7.16589
        Median   -0.90733     Variance                51.35004
        Mode     -2.90733     Range                   50.17117
                              Interquartile Range      8.17117
        
                                              Friday, October 13, 2023 10:40:54 PM  24
        The UNIVARIATE Procedure
        Variable:  resid1  (Residual)
                   Tests for Location: Mu0=0
        Test           -Statistic-    -----p Value------
        Student's t    t         0    Pr > |t|    1.0000
        Sign           M     -43.5    Pr >= |M|   0.0009
        Signed Rank    S    -11382    Pr >= |S|   0.0246
        
                           Tests for Normality
        Test                  --Statistic---    -----p Value------
        Shapiro-Wilk          W     0.937023    Pr < W     <0.0001
        Kolmogorov-Smirnov    D     0.085252    Pr > D     <0.0100
        Cramer-von Mises      W-Sq  1.270249    Pr > W-Sq  <0.0050
        Anderson-Darling      A-Sq  7.871455    Pr > A-Sq  <0.0050
        
                                              Friday, October 13, 2023 10:40:54 PM  25
        The UNIVARIATE Procedure
        Variable:  resid1  (Residual)
        
        Quantiles (Definition 5)
        Level           Quantile
        100% Max       34.258434
        99%            24.595373
        95%            12.932312
        90%             8.771955
        75% Q3          3.435016
        50% Median     -0.907331
        25% Q1         -4.736157
        10%            -7.997245
        5%             -9.741566
        1%            -12.314713
        0% Min        -15.912739
        
                   Extreme Observations
        ------Lowest-----        -----Highest-----
           Value      Obs           Value      Obs
        -15.9127      658         27.9215      653
        -14.5758      548         28.6793      356
        -14.5704      335         30.9215      654
        -14.1641      700         32.9215      655
        -13.7470      671         34.2584      544
        
                       Missing Values
                               -----Percent Of-----
        Missing                             Missing
          Value       Count     All Obs         Obs
              .          96       12.45      100.00
        
        Q-Q Plot

      3. 残差分析もお忘れなく
        • 回帰直線の係数が求まったらそれでおしまい?

        • 仮定が3つあったはず
          • 両者の関係性は直線=線形を仮定する
          • 誤差の分布は正規分布を仮定する
          • 測定の場所によらず、残差は同一の分布であることを仮定する

        • 仮定が成り立っているかは確認せねば。どうやって?
          • もし、残差が何らかの傾向を示しているなら、直線=線形関係ではないのかもしれないと疑う必要がある。 ==> バナナカーブ
          • 測定する場所で残差の傾向が異なるなら、残差の分布が同一とは言えないかもしれない。 ==> 順に広がっているラッパカーブ
          • 残差のヒストグラム、箱ひげ図で偏りが判定できる。
          • Q-Q プロットの斜め直線に乗っていれば正規分布と言える。ズレが大きいようだと検討の余地がある。
            • 程度問題ではあるが、少しぐらいの逸脱は許容範囲と言える。
            • 残差が正規分布をするということを意識してもらえば良い。

      4. この分析のまとめ(結果の見方)
        • 対象になったのは 675名。

        • 説明変量が予測に役立っているか?
          • 回帰に役立っているか : 「Analysis of Variance」中の「Pr > F」 : 小さいと有意(役立っている)
              [この例] 1% 未満(0.01%) なので役に立っていると言える。

        • 決定係数 : Adj R-Sq(Adjusted R-squared)(相関係数 : R)
          • 目的変量が説明変量でどの程度説明しているかの割合。
          • 1 に近いほど当てはまりが良いと言える。
              [この例] 43% 程(約半分)を説明できている。

        • 回帰係数 : Parameter Estimates
            [この例] a=-81.4, b=0.834

        • 説明変数が予測に役立っているか?
          回帰係数の検定(係数=0 か?) : Pr > |t|) : 小さいと有意(係数=0ではないと言える)
            [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

        • 残差の性質 ===> 正規性 : 残差プロット、残差解析
          • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
          • この仮定が覆ると、回帰分析として成立していないことになる。
          • 残差が正規分布をしているか確認する必要がある。
          • 均等に散らばっているか?
          • 傾向はないか?

          • [この例] 残差には概ね傾向は見られない。 ただし体重の大きい 5例程度は要確認。場合によっては外れ値として除外も。

    2. 有効桁数に注意せよ : どこまでが「意味ある桁」か?
    3. 測定精度上回る計算結果は出せても、意味はない。
      [重要な注意] 統計ソフトは単なる道具。使いこなすのは各自。
        [例1] 四捨五入の数値で考えてみれば : 精度(正確さ)が異なることに注意
          12.3 <=== 12.25~12.34
          12  <=== 11.5 ~12.4

          67.8 <=== 67.75~67.84
          68  <=== 67.5 ~68.4

        [例2] 日本の観測史上の最高気温は、 2018(平成30)年7月23日に熊谷市で観測された41.1度であり、 最低気温は、1902(明治35)年1月25日に北海道旭川市の-41度であった。===> -41.0度
      なお、参考までに最高気温の2位は41.0度で岐阜県の美濃市と金山町の2ヶ所。
        [例3] 2001年のイチロー選手の打率は3割5分であり、 2006年は3割3分1厘であった。===> 3割5分0厘


    4. 重回帰分析 : 予測等に使う、連続変量の関係
      • 2変量以上の説明する変量(説明変量)で 1変量(目的変量)を説明
      • 説明変量が複数になる : 単 ===> 重
      • 体重を身長と胸囲で説明(回帰)したい : [体重]=a+b[身長]+c[胸囲] : 回帰係数
        • 説明される変量 : 目的変数、従属変数、dependent variable
        • 説明する変量 : 説明変数、独立変数、independent variable

      • アイディアは単回帰分析の時と全く同じ。
        • 両者の関係性は直線=線形を仮定する
        • 回帰直線からのズレ(誤差)のことを回帰分析では「残差」と呼ぶ。
        • 説明される変量(目的変量)と平行に残差を取る。なぜなら、指定された独立変数における測定誤差だから。
        • 残差の分布は正規分布を仮定する
        • 測定の場所によらず、残差は同一の分布であることを仮定する
        • 残差の二乗和を最小にする(最小二乗法)

      • 式の展開、解法。

        直線(平面)の方程式:  Exp1

        測定値と予測値のズレ:  Exp2
        ズレの2乗の和を最小に:  Exp3

      1. SASプログラム : StatM2303-Reg3.sas

      2. 出力結果 : StatM2303-Reg3_Results.txt , StatM2303-Reg3-Results.html
        • 散布図の見方にはややコツが必要: アルファベットで個数を表している
        
                                              Friday, October 13, 2023 10:42:02 PM  34
        The REG Procedure
        Model: MODEL1
        Dependent Variable: Xtaijyuu 体重
        
        Number of Observations Read                        771
        Number of Observations Used                        239
        Number of Observations with Missing Values         532
        
                                     Analysis of Variance
                                            Sum of           Mean
        Source                   DF        Squares         Square    F Value    Pr > F
        Model                     2          13923     6961.53645     140.05    <.0001
        Error                   236          11731       49.70737                     
        Corrected Total         238          25654                                    
        
        
        Root MSE              7.05035    R-Square     0.5427
        Dependent Mean       61.08326    Adj R-Sq     0.5388
        Coeff Var            11.54219                       
        
                                    Parameter Estimates
                                       Parameter      Standard
        Variable    Label       DF      Estimate         Error   t Value   Pr > |t|
        Intercept   Intercept    1    -100.18384       9.94691    -10.07     <.0001
        Xshintyou   身長         1       0.80438       0.06118     13.15     <.0001
        Xkyoui      胸囲         1       0.29281       0.04941      5.93     <.0001
        
                                              Friday, October 13, 2023 10:42:03 PM  36
                   X                                      X
                   s     X                 X      X       t
                   h     t         X       k      c       s
                   i     a   X     j       o      a       u              r
                   n     i   k     i       d      r       u     p        e
               X   t     j   y     t       u      r       s     r        s
         O     s   y     y   o     a       k      y       h     e        i
         b   N e   o     u   u     k       a      e       i     d        d
         s   o x   u     u   i     u       i      r       n     3        3
          1  2 F 145.5 42.0 76 自宅生        0          3700 39.1079  2.89213
          2  3 F 146.7 41.0 85 自宅生    10000 Vodafone 6000 42.7084 -1.70844
          3  4 F 148.0 42.0  . 自宅生    50000             .   .       .     
          4  5 F 148.0 43.0 80 自宅生    50000 DoCoMo   4000 42.2901  0.70992
          5  6 F 148.9   .   . 自宅生    60000             .   .       .     
          6  7 F 149.0 45.0  . 下宿生    60000             .   .       .     
          7  8 F 150.0 43.0 82 自宅生        0          4980 44.4845 -1.48448
          8  9 F 150.0 46.0 86           40000             . 45.6557  0.34428
          9 10 F 150.0 47.0  . 自宅生        .             .   .       .     
         10 11 F 151.0 42.0  . 自宅生        .          7700   .       .     
         11 12 F 151.0 45.0  . 自宅生    20000 docomo   5000   .       .     
         12 13   151.0 46.0  . 自宅生        0          6500   .       .     
         13 14 F 151.0 50.0  . 下宿生    60000 J-PHONE     .   .       .     
         14 15 F 151.0   .   . 下宿生        .             .   .       .     
         15 16 F 151.7 41.5 80 自宅生    35000             . 45.2663 -3.76631
        
                                              Friday, October 13, 2023 10:42:03 PM  37
               Plot of Xtaijyuu*Xshintyou.  Legend: A = 1 obs, B = 2 obs, etc.
                |
            100 +                                             A    B
                |                                                  A
                |                                       A    A    A      A
                |                                        B   A     A A    B
             80 +                                  A A   B  A B AAAA A   A    A
        体      |                                     B  AB AAA CA A CB B     AA
        重      |                           A  AA   AAA AEE GHC JEGFA KAABAA C
                |                          A   DAC F DD ENF EJC IFGB DIB DAA
             60 +                      A   AA  BFA CBJHAGNKBLPGBKCIF AHA AB
                |                  B    C   HC GDE KGLWBGKI FDB HB A  AA
                |               A  A  CDBG EIA EFD JHGEBACA CA  A    A
                |           A ACB CABA BAC AD ABCA AA A A
             40 +        A AA   AA B  ABA       B
                |                 A
                |
                |
             20 +
                |
                --+------------+------------+------------+------------+------------+--
                 140          150          160          170          180          190
                                                身長
        NOTE: 96 obs had missing values.
        
                                              Friday, October 13, 2023 10:42:03 PM  38
                 Plot of Xtaijyuu*Xkyoui.  Legend: A = 1 obs, B = 2 obs, etc.
                |
            100 +                                                             A
                |
                |                                               A A  AA
                |                  A                                  AB
             80 +                                                A C       A A
        体      |                                           A   ABACA A
        重      |                 A                      C  AAABMFAC CA     A
                |                              A         BAAC GCJCAD     A
             60 +        A                  A           BF AIBKDHBAA  A
                |             A          A         B  B ADC PCAAEA
                |                             A    B  C  CFEFBAA
                |                                     B  EBAAAA
             40 +                                     B  A  B
                |                                      A
                |
                |
             20 +
                |
                --+------------+------------+------------+------------+------------+--
                 20           40           60           80           100          120
                                                胸囲
        NOTE: 532 obs had missing values.
        
                                              Friday, October 13, 2023 10:42:03 PM  39
                 Plot of pred3*Xtaijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
           80 +
              |                                      A         A        A  A         A
              |                              A A     AAB   AB           A
              |                         A    D   CAAAC BCBAAA AA A         A
              |                      A    BAACACAADACB DACA    A A A  A    A
              |                         BAAB HBDDAAAACACAA B              A
           60 +                      BDBEBAC DADCAG
              |                AAB BBACACCBA AA A A  A
              |            A   AA DEAAC   A AA         A A           A
        pred3 |            A  ABBCAAABAA      A
              |            A A A A      A
              |     A     A B                A
           40 +            A
              |
              |                           A
              |
              |
              |
           20 +
              -+---------+---------+---------+---------+---------+---------+---------+
              30        40        50        60        70        80        90       100
                                               体重
        NOTE: 532 obs had missing values.
        
                                              Friday, October 13, 2023 10:42:03 PM  40
                Plot of resid3*Xshintyou.  Legend: A = 1 obs, B = 2 obs, etc.
           40 +
              |
              |
              |                                              A
              |
        R     |                  A                      A    A      A
        e  20 +                                                    A
        s     |                                A        AA      A
        i     |                                                B      A   A
        d     |                  A   A        A          BA     A     A    A
        u     |                                B A A  A ACA DB  A A
        a     |        A             A A   C  A   B  BB CDC  EAABA AB  B
        l   0 +-----------A--B------AB--B--BA-A--ABA-BB-AEC--BA-BC-A-AAAA-A-----------
              |         A      A A A AA D DD  CB ABA BFACEC EB BBA CA  CA A  A
              |                      A        A  BCA BBAAAB A  AD AAA  C      A
              |                 A             AB   B     A   A  AA    ABA
              |                                                       A A AA
              |
          -20 +
              -+-------------+-------------+-------------+-------------+-------------+
              140           150           160           170           180          190
                                               身長
        NOTE: 532 obs had missing values.
        
                                              Friday, October 13, 2023 10:42:03 PM  41
                  Plot of resid3*Xkyoui.  Legend: A = 1 obs, B = 2 obs, etc.
           40 +
              |
              |
              |                  A
              |
        R     |             A                                   A  A           A
        e  20 +                                                       A
        s     |       A          A                       A              A
        i     |                                                     B  AA
        d     |                                         A       C AAA  A     A
        u     |                                         AA   A EF  ABA
        a     |                         A  A   A  B   A  D  BEDBADC B BB      A
        l   0 +-----------------------------------A------ECCBEACJB--D-AA--A--A--------
              |                              A    A   C  HDBDQCFKCABC
              |                                       B ACBCBFADE A
              |                                       BA BB  DAA A
              |                                       A   A   A   A
              |
          -20 +
              -+-------------+-------------+-------------+-------------+-------------+
              20            40            60            80            100          120
                                               胸囲
        NOTE: 532 obs had missing values.
        
                                              Friday, October 13, 2023 10:42:03 PM  42
                 Plot of resid3*Xtaijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
           40 +
              |
              |
              |                                                      A
              |
        R     |                           A                               AA         A
        e  20 +                                                            A
        s     |                              A         A A            A
        i     |                                                  A A    A  A
        d     |                         A     A      A     B  AA A      A
        u     |                              A    E  AACACA A  A
        a     |            A     A  A AA  A AAACDADABC DABAAA  A
        l   0 +-------------B--A-AAA-CB--BBA-DABCBB-BC-BCA-AA-------------------------
              |           AA AABBBDEAACAHBAD HCEBABBABAB
              |            A    B  BBAEBABABAC A BA  A
              |     A      A   B B   A  A B  D
              |                      A  A    A A
              |
          -20 +
              -+---------+---------+---------+---------+---------+---------+---------+
              30        40        50        60        70        80        90       100
                                               体重
        NOTE: 532 obs had missing values.
        
        
        Q-Q Plot

      3. 残差分析もお忘れなく
        • 回帰直線の係数が求まったらそれでおしまい?

        • 仮定が3つあったはず
          • 両者の関係性は直線=線形を仮定する
          • 誤差の分布は正規分布を仮定する
          • 測定の場所によらず、残差は同一の分布であることを仮定する

        • 仮定が成り立っているかは確認せねば。どうやって?
          • もし、残差が何らかの傾向を示しているなら、直線=線形関係ではないのかもしれないと疑う必要がある。 ==> バナナカーブ
          • 測定する場所で残差の傾向が異なるなら、残差の分布が同一とは言えないかもしれない。 ==> 順に広がっているラッパカーブ
          • 残差のヒストグラム、箱ひげ図で偏りが判定できる。
          • Q-Q プロットの斜め直線に乗っていれば正規分布と言える。ズレが大きいようだと検討の余地がある。
            • 程度問題ではあるが、少しぐらいの逸脱は許容範囲と言える。
            • 残差が正規分布をするということを意識してもらえば良い。

      4. この分析のまとめ(結果の見方)
        • 対象になったのは 239名。

        • 説明変量が予測に役立っているか?
          • 回帰に役立っているか : 「Analysis of Variance」中の「Pr > F」 : 小さいと有意(役立っている)
              [この例] 1% 未満(0.01%) なので役に立っていると言える。

        • 決定係数 : Adj R-Sq(Adjusted R-squared)(相関係数 : R)
          • 目的変量が説明変量でどの程度説明しているかの割合。
          • 1 に近いほど当てはまりが良いと言える。
              [この例] 53.9% 程(約半分)を説明できている。

        • 回帰係数 : Parameter Estimates
            [この例] a=-100(定数項), b=0.804(身長), c=0.293(胸囲)

        • 説明変数が予測に役立っているか?
          回帰係数の検定(係数=0 か?) : Pr > |t|) : 小さいと有意(係数=0ではないと言える)
            [この例] 3つとも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

        • 残差の性質 ===> 正規性 : 残差プロット、残差解析
          • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
          • この仮定が覆ると、回帰分析として成立していないことになる。
          • 残差が正規分布をしているか確認する必要がある。
          • 均等に散らばっているか?
          • 傾向はないか?

          • [この例] 残差には概ね傾向は見られない。 ただし残差が20を超える辺りの5サンプルほどは(少なくとも)分布を乱しているように見える。加えて、今頃になってだが、胸囲が50cm未満の者が2サンプルある。===> 外れ値か? 吟味が必要。

    5. 外れ値への対応: 集団と異なったふるまいをするサンプル
      • 吟味する: なぜ外れている? 入力ミス?
      • どう対応する: 外す、修正する、数理モデルが不適当?

      • 一部のサンプルを除外して分析してみよう
        残差分析の結果、残差が20を超えている5サンプル程について吟味したところ、 一般的な学生の体型と異なっていると判断し、 これらを除外して分析をしてみよう。

      • 検討の結果、以下の処置を取ることとした。
        • 胸囲が50cmに満たない者を除外
        • 体重が85Kgを超える者を除外

      1. SASプログラム : StatM2303-Reg4.sas

      2. 出力結果 : StatM2303-Reg4_Results.txt , StatM2303-Reg4-Results.html : 以下は関係する部分だけを表示してある
                                              Friday, October 13, 2023 10:42:50 PM  49
        The REG Procedure
        Model: MODEL1
        Dependent Variable: Xtaijyuu 体重
        
        Number of Observations Read         227
        Number of Observations Used         227
        
        
                                     Analysis of Variance
         
                                            Sum of           Mean
        Source                   DF        Squares         Square    F Value    Pr > F
        Model                     2          12660     6329.96980     239.04    <.0001
        Error                   224     5931.62948       26.48049                     
        Corrected Total         226          18592                                    
        
        Root MSE              5.14592    R-Square     0.6810
        Dependent Mean       60.08502    Adj R-Sq     0.6781
        Coeff Var             8.56440                       
        
        
                                              Friday, October 13, 2023 10:42:50 PM  50
        
        The REG Procedure
        Model: MODEL1
        Dependent Variable: Xtaijyuu 体重
        
                                    Parameter Estimates
                                       Parameter      Standard
        Variable    Label       DF      Estimate         Error   t Value   Pr > |t|
        Intercept   Intercept    1    -100.51086       7.66144    -13.12     <.0001
        Xshintyou   身長         1       0.66051       0.04675     14.13     <.0001
        Xkyoui      胸囲         1       0.56587       0.05168     10.95     <.0001
        
                                              Friday, October 13, 2023 10:42:51 PM  51
                   X                                       X
                   s     X                  X      X       t
                   h     t         X        k      c       s
                   i     a   X     j        o      a       u               r
                   n     i   k     i        d      r       u      p        e
               X   t     j   y     t        u      r       s      r        s
         O     s   y     y   o     a        k      y       h      e        i
         b   N e   o     u   u     k        a      e       i      d        d
         s   o x   u     u   i     u        i      r       n      4        4
          1  2 F 145.5 42.0 76 自宅生      0           3700 38.5993   3.4007
          2  3 F 146.7 41.0 85 自宅生  10000 Vodafone  6000 44.4848  -3.4848
          3  5 F 148.0 43.0 80 自宅生  50000 DoCoMo    4000 42.5141   0.4859
          4  8 F 150.0 43.0 82 自宅生      0           4980 44.9668  -1.9668
          5  9 F 150.0 46.0 86            40000              . 47.2303  -1.2303
          6 16 F 151.7 41.5 80 自宅生  35000              . 44.9579  -3.4579
          7 17 F 152.0 35.0 77 自宅生  60000 DoCoMo    2000 43.4585  -8.4585
          8 23 F 153.0 46.5 87 下宿生  10000              . 49.7777  -3.2777
          9 25 F 153.0 55.0 78 自宅生  30000              . 44.6849  10.3151
         10 32 F 154.4 44.0 75 自宅生   9000 au        2000 43.9120   0.0880
         11 34 F 155.0 48.0 83 下宿生 180000              . 48.8352  -0.8352
         12 39 F 156.0 42.0 85 自宅生      0 DoCoMo   15000 50.6275  -8.6275
         13 41 F 156.0 46.0 82 自宅生  10000 Vodafone  7000 48.9299  -2.9299
         14 42 F 156.0 48.0 70 自宅生  30000              . 42.1394   5.8606
         15 43 F 156.0 49.0 85 自宅生  25000              . 50.6275  -1.6275
        
                                              Friday, October 13, 2023 10:42:51 PM  55
                Plot of resid4*Xshintyou.  Legend: A = 1 obs, B = 2 obs, etc.
              |
           20 +
              |                                A
              |                                          A     A
              |                                          A   B A
        R  10 +                  A            A                       A
        e     |                      A         B   A  B BBB BB  B A    A
        s     |                      A     C     AA   B  FA B A BA A
        i     |        A               AB  AA     B  B  DCB  B A A  A  BB A
        d   0 +-----------A--A-----AAA--A--B--B---AA-BB--CC-ACAADB-B-AA---A--A--------
        u     |         A    A A A   BA C CB  CB BBA BCABDD CB AAAACB  D
        a     |                           AA     BBA BCA A  BA AD   A ABA
        l     |                 A    A        AB  AB    A A      A    AB      A
          -10 +                               A          A              A AA
              |
              |
              |
          -20 +
              |
              -+-------------+-------------+-------------+-------------+-------------+
              140           150           160           170           180          190
                                               身長
        
                                              Friday, October 13, 2023 10:42:51 PM  56
                  Plot of resid4*Xkyoui.  Legend: A = 1 obs, B = 2 obs, etc.
              |
           20 +
              |                            A
              |                                                 A       A
              |A      A                                  A      A
        R  10 +                         A                A   A
        e     |                         A  D      B   BABE     AAA
        s     |    A         C             A   A ACA BA  C   A AA  A              A
        i     |              A      AA     D  BA AAA BA BBA DB   A  A
        d   0 +---------------------AA-----E--AA-CEA-AA-BGA-----DA--B--C--------------
        u     |                      A  A  G  EB CJD BDAAI  CA B A                  AA
        a     |                     AA     A  AB BE  AB AG      B            A
        l     |                     AA A   A  BA  BB AA A    A
          -10 +                               A   A  A      AA
              |
              |
              |
          -20 +
              |
              -+-------------+-------------+-------------+-------------+-------------+
              60            70            80            90            100          110
                                               胸囲
        
                                              Friday, October 13, 2023 10:42:51 PM  57
                 Plot of resid4*Xtaijyuu.  Legend: A = 1 obs, B = 2 obs, etc.
              |
           20 +
              |                                              A
              |                                                           A  A
              |                                   A  A           A      A
        R  10 +                              A             A            A
        e     |                                   AAAA  D  AABAC B   AA
        s     |                      A AA     AA A AA   CABA C AA A   A
        i     |               A          CB  AA A B ABB A BD B AA AA
        d   0 +----------------AA--A-C-A--B--B-A--EABDA-CB-B-CCA-A--------------------
        u     |              AAA  ACA DDAABB ECBEADCCCA B  AAAA       A
        a     |                     A AABBDA AAAA F A B AA
        l     |        A      B    AAB A AA   AA  B        A
          -10 +                   A          B    A A
              |
              |
              |
          -20 +
              |
              ---+----------+----------+----------+----------+----------+----------+--
                30         40         50         60         70         80         90
                                               体重
        
        
        Q-Q Plot

      3. この分析のまとめ(結果の見方)
        • 対象になったのは 227名。

        • 説明変量が予測に役立っているか?
          • 回帰に役立っているか : 「Analysis of Variance」中の「Pr > F」 : 小さいと有意(役立っている)
              [この例] 1% 未満(0.01%) なので役に立っていると言える。

        • 決定係数 : Adj R-Sq(Adjusted R-squared)(相関係数 : R)
          • 目的変量が説明変量でどの程度説明しているかの割合。
          • 1 に近いほど当てはまりが良いと言える。
              [この例] 67.8% 程(3分の2)を説明できている。

        • 回帰係数 : Parameter Estimates
            [この例] a=-101(定数項), b=0.661(身長), c=0.566(胸囲)

        • 説明変数が予測に役立っているか?
          回帰係数の検定(係数=0 か?) : Pr > |t|) : 小さいと有意(係数=0ではないと言える)
            [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

        • 残差の性質 ===> 正規性 : 残差プロット、残差解析
          • 残差(予測誤差)は正規分布をしていると仮定してモデルが構築されている。
          • この仮定が覆ると、回帰分析として成立していないことになる。
          • 残差が正規分布をしているか確認する必要がある。
          • 均等に散らばっているか?
          • 傾向はないか?

          • [この例] 残差には概ね傾向は見られない。 Q-Qプロットでもほぼライン上に絡まるように推移している。

      4. 次なる一手としては: 特徴に基づいて分割
        • 男女別に分析してみる。体格が異なることが明確なので。

    6. [要約: 回帰分析] 解析する上での注意点
      • 2変量以上の説明する変量(説明変量)で 1変量(目的変量)を説明したい
        • 説明される変量 : 目的変数、従属変数、dependent variable
        • 説明する変量 : 説明変数、独立変数、independent variable

      • 両者の関係性は直線=線形を仮定する
      • 回帰直線からのズレ(誤差)のことを回帰分析では「残差」と呼ぶ。
      • 説明される変量(目的変量)と平行に残差を取る。なぜなら、指定された独立変数における測定誤差だから。
      • 残差の分布は正規分布を仮定する
      • 測定の場所によらず、残差は同一の分布であることを仮定する
      • 残差の二乗和を最小にする(最小二乗法)

      • 残差分析を行なおう
        • 残差に傾向はないか? :
             一様性、バナナカーブ、ラッパ状、... ===> 残差プロット
        • 残差の正規性の確認 : Q-Q plot

      • 外れ値に対して
        • 外れ値と思われるサンプルを検討する必要あり。場合によっては除外も。
          • 外れ値を持つ個体を除外する : 標準体型の者だけに、...
          • 対象集団を単質のものに絞る : 男性だけ、18歳だけ、...
          • ただし、恣意的な除外は謹むべきである。
        • 「外れ値」と「異常値」は区別して取り扱う・識別する : 「外れて」いても「異常」かどうかは別
          • 外れ値 : 大多数のデータから大きく離れた値
          • 異常値 : 通常ではあり得ない入力ミス等の異常な値

      • 上記以外に「多重共線性(multi-colinearity)」の問題もある。 逆行列が取れなくなる(ランク落ち)。不安定な解。そのような場合は、 組み込んでいる説明変数間の関係を見直す必要がある。

      • また、本講義では取り扱わないが、変量数が多いデータを対象とした場合は、 より影響力の大きい変量だけでモデルを構築する必要に迫られることも多い。 そのような場合は「変数選択」の手法を用いると良い。 一方、変量の組み合わせによって相関係数がどのように変化するかを観るために 全組み合わせを順に発生させて振る舞いを眺める「総当たり法」を用いることもある。 これらは実データを分析する際に試して欲しい。

      • 「数値計算上の最適モデル」と「その分野の知識からの最適モデル」には違いがあることを知っておくこと。
        • 計算結果としてベターであっても、回帰式・モデルを理解する上で好ましいとは言えない場合も有り得る。

    7. 回帰分析と最小二乗法
      • 測定誤差が正規分布していることを仮定して、回帰分析はモデルが構築されている。
      • 最小二乗法(Least Squares Method)は予測変量の誤差を最小とする数値計算手法であり、求める線や平面に構造を持ち込んでいるわけでなない。
      • 最近話題のAIでも回帰分析に基づいた推定等が行われているが、 その際に、「誤差が正規分布をする」との仮定は設けられていないことがある。 その場合は「回帰分析」と言わずに「最小二乗法」と言った方が正確ではないのか? 【私見】

    8. 4つの尺度と回帰分析の関係
      • 比率尺度(ratio scale) : 長さ、重さ。間隔尺度に加えて絶対原点が存在。
      • 間隔尺度(interval scale) : セ氏やカ氏で測定された温度。原点は任意。
      • 名義尺度(nominal scale) : 性別、職業、支持政党。分類の項目。
      • 順序尺度(ordinal scale) : 成績の優・良・可・不可。順序関係あり。「優と良の差」が「可と不可の差」に等しいわけではない。

      • 量的データ : 間隔尺度、比率尺度。連続変量とも。
      • 質的データ : 名義尺度、順序尺度。離散変量とも。

      • 離散変量を回帰分析で用いるには注意が必要である。 線形関係と言えるのか? 割り当てた値を変更したら影響力が変化する。

    9. 次回は、... : 10月24日(火) 16:20-17:50
      • 多変量解析(2) : 今週の残り、回帰分析に関する話題