2つの変量の関係について考えてみよう

ジュニア・ゼミ : 第3回 (01/11/11)

 明けましておめでとうございます。前回の「平均値」に続いて、 今週は複数の変量を取り扱う際の考え方を紹介する。
  1. 一昨年 & 先週見つけた事例

  2. 参考図書: 読み物としても面白いであろう

  3. 身長と体重の関係 : どのように表現すれば良いのだろうか?

  4. 相関係数と散布図 : 6.2.1 節 (P112-)
     変数        N          平均      標準偏差        最小値        最大値
     ---------------------------------------------------------------------
     shintyou  354   168.6723164     8.2455841   145.0000000   188.0000000
     taijyuu   354    58.6878531     9.1001631    35.0000000    90.0000000
     kyoui     117    86.3170940     7.1623090    56.0000000   110.0000000
     kodukai   332      45046.69      41507.49             0     180000.00
     tsuuwa    164       6694.83       4341.59             0      30000.00
     ---------------------------------------------------------------------
    
          shintyou                              Cum.              Cum.
          Midpoint                        Freq  Freq  Percent  Percent
                     |
               144   |                       1     1     0.28     0.28
               148   |*                      4     5     1.13     1.41
               152   |***                   15    20     4.24     5.65
               156   |****                  22    42     6.21    11.86
               160   |******                31    73     8.76    20.62
               164   |*******               37   110    10.45    31.07
               168   |***********           55   165    15.54    46.61
               172   |******************    92   257    25.99    72.60
               176   |**********            50   307    14.12    86.72
               180   |*******               33   340     9.32    96.05
               184   |**                    11   351     3.11    99.15
               188   |*                      3   354     0.85   100.00
                     |
                     ----+---+---+---+--
                         20  40  60  80
                          Frequency
    
         プロット : taijyuu*shintyou   凡例 : A = 1 obs, B = 2 obs, ...
    taijyuu |
        100 +
            |
            |                                    A              A
            |                                                         A
         80 +                               A     A     A B AA       A
            |                                   B AAA A B A AA  A
            |                               A    AABE DBC A B H B  BB
            |                              BB B DAHBBABBDDC BCFAA  A
         60 +                    A   AAAB BAAAC DBKFK IFCDD C AAA A     A
            |                 A   B   FCA A ECH HDEGDABBDAA    A
            |              A  A CFA CDF D EBCDC B AAA   A
            |           AAAAC CB CB BAB C B  A   A
         40 +       A A A   A B  B
            |               A
            |
            |
         20 +
            |
            --+-----------+-----------+-----------+-----------+-----------+-
             140         150         160         170         180         190
                                        shintyou
    
         プロット : shintyou*taijyuu   凡例 : A = 1 obs, B = 2 obs, ...
         200 +
             |
             |
             |
             |                              A       A   A         A   A
             |                              AA  AA  A B A                 A
         180 +                         A    AA DBCA A GA  AA      A
             |                    A  B AABBAGBBBACCDD A   AB ACA
             |                    A  BBBBACAHDHBBBA DACAB  A A
    shintyou |                A   A BBCBGCDBIAFDBCB AAAA  AA  A          A
             |                 AF A DDEIBCD B BAAF    A   AA  A
             |               ABA  AEEA A  A B BAA
         160 +               B BBCCAADAC A AB
             |            BABAC DDDA A   A   A
             |     A     ABBB CA  A    A
             |               BA   A
             |        A  AAA
             |
         140 +
             -+---------+---------+---------+---------+---------+---------+-
             30        40        50        60        70        80        90
                                         taijyuu
    
                               Pearson の相関係数
                         H0: Rho=0 に対する Prob > |r|
                               オブザベーション数
     
                  shintyou     taijyuu       kyoui     kodukai      tsuuwa
    
      shintyou     1.00000     0.73113     0.38863     0.02686     0.00498
                                <.0001      <.0001      0.6258      0.9495
                       354         354         117         332         164
    
      taijyuu      0.73113     1.00000     0.61380     0.02034     0.03673
                    <.0001                  <.0001      0.7120      0.6405
                       354         354         117         332         164
    
      kyoui        0.38863     0.61380     1.00000    -0.06177    -0.09721
                    <.0001      <.0001                  0.5176      0.5252
                       117         117         117         112          45
    
      kodukai      0.02686     0.02034    -0.06177     1.00000     0.25941
                    0.6258      0.7120      0.5176                  0.0010
                       332         332         112         332         158
    
      tsuuwa       0.00498     0.03673    -0.09721     0.25941     1.00000
                    0.9495      0.6405      0.5252      0.0010            
                       164         164          45         158         164
    

  5. [参考] 単変量、二変量を視覚的に捉えると? by Mathematica
    1. 1 dim. Normal Distribution [式(a)] 1次元正規分布 N(0,1)
    2. 2 dim. Normal Distribution [式(b)] 2次元正規分布 N({0,0},{1,1}, ρ=0.0)
    3. 2 dim. Normal Distribution [式(c)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)
    4. 2 dim. Normal Distribution [式(d)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、y=1 で切り出し
    5. 2 dim. Normal Distribution [式(e)] 2次元正規分布 N({0,0},{1,1}, ρ=0.7)、x+y=2 で切り出し

  6. 比例、反比例 ===> 関係が判れば予測に使える

  7. 直線を当てはめてみよう

  8. 単回帰分析 : 予測に使う
     過去のデータからその構造を把握し、新規に測定されたデータに対する予測を 行ないたいと言うときに、回帰分析は有用である。 構造のシンプルな単回帰分析でこの手法の原理を理解しよう。

                                   REG プロシジャ
                                   モデル: MODEL1
                                 従属変数: taijyuu 
      
                      読み込んだオブザベーション数         354
                      使用されたオブザベーション数         354
      
                                      分散分析
        変動因             自由度       平方和     平均平方     F 値  Pr > F
      
        Model                   1        15627        15627   404.27  <.0001
        Error                 352        13606     38.65424                 
        Corrected Total       353        29233                              
      
              誤差の標準偏差        6.21725    R2 乗            0.5346
              従属変数の平均       58.68785    調整済 R2 乗     0.5332
              変動係数             10.59377                           
      
                                  パラメータ推定値
                              パラメータ
      変数         自由度         推定値       標準誤差       t 値    Pr > |t|
      
      Intercept         1      -77.41538        6.77720     -11.42      <.0001
      shintyou          1        0.80691        0.04013      20.11      <.0001
      
    1. 結果の見方
      • 回帰係数 : Parameter Estimate
          [この例] a=0.807, b=-77.4 ===> [体重]=0.807x[身長]-77.4
                 180cmの人の予想体重は、... 0.807x180-77.4=67.9kg

      • [発展] (以下の詳細は今回は扱わない)
      • 対象になったのは 354名。
      • 説明変量が予測に役立っているか?
        • 回帰に役立っているか : Prob>F : 小さいと有意(役立っている)
          [この例] 1% 未満(0.01%) なので役に立っていると言える。
      • 決定係数 : R-Square ( 相関係数 : R )
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。
          [この例] 約半分(53.5%)を説明できている。
      • 説明変数が予測に役立っているか?
        回帰係数の検定(係数=0 か?) : Prob>|T| : 小さいと有意(ゼロではないと言える)
        [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

    2. どうやって直線を決める?
      • アイディアを考えて欲しい。モデルがベースになっている。

      • 予測誤差の2乗和を最小にする
      • 予測誤差って何? どこの大きさ? どこの長さ?
      • [重要] 誤差は「説明変量」の軸と垂直に取ることに注意せよ。
        • 誤差は測定時に混入していると考えてモデルが構築されているから。
        • 正規分布の登場!

      • 複数の説明変量 ===> 重回帰分析
        • 「身長と胸囲を聞いて、体重を予想する」と言った使い方。
        • 誤差(残差)の取り方や、その2乗和を最小にするという考えは同じ

  9. [発展] 解析する上での注意点

  10. 誤用?!  [例1] 人間の成長曲線
     [例2] 将来のプログラマ必要数予測 : 21世紀(?)には国民全員がプログラマ ('80s)
     [例3] オリンピック 100m 走の男女記録 : 2156年には女性の方が速い (2004.09.30) :
           Japan Journal LTD の記事 , Japan Journal LTD の記事 , 朝日新聞 の記事
         [究極の命題!] 100m に 0.00秒 要する(!?)ようになるのは何時?

  11. [発展] 他の基準

  12. [宿題] 新聞や雑誌、Web 等に公表されている数値の中から、 「怪しい数値の使い方(誤用)」を見つけてみよう。

  13. 次回は... : 01月18日 13:00
[DIR]講義のホームページへ戻ります