統計を使いこなすには

ジュニア・ゼミ : 第3回 (07/02/09)

 早いもので私の担当は今週で最終回である。 「平均値」、「相関」に続いて、集団を代表する直線の求め方を考えてみよう。 そして、今後、統計とどのように接していけば良いかを考えてもらうことにする。
  1. 以前見つけた事例

  2. 相関係数と散布図 : 6.2.1節 (P112-) : (第2回の第3節、部分再掲)
                  shintyou     taijyuu       kyoui     kodukai      tsuuwa
    
      shintyou     1.00000     0.73410     0.35209     0.02868     0.00631
                                <.0001      0.0001      0.6069      0.9370
                       345         345         113         324         159
    
         プロット : taijyuu*shintyou   凡例 : A = 1 obs, B = 2 obs, ...
    taijyuu |
        100 +
            |
            |
            |
         80 +                               A     A     A B A        A
            |                                   B AAA A B A AA  A
            |                               A    AABE DBC A B H B  BB
            |                              BB B DAHBBABBDDC BCFAA  A
         60 +                    A   AAAB BAAAC DBKFK IFCDD C AAA A     A
            |                 A   B   FBA A ECH HDEGDABBDAA    A
            |              A  A CFA CDF D EBCDC B AAA   A
            |           AAAAC BB BB BAB C A  A
         40 +       A A A   A B  B
            |               A
            |
            |
         20 +
            |
            --+-----------+-----------+-----------+-----------+-----------+-
             140         150         160         170         180         190
                                        shintyou
    

  3. 比例、反比例

  4. 直線を当てはめてみよう

  5. 単回帰分析 : 予測に使う
     過去のデータからその構造を把握し、新規に測定されたデータに対する予測を 行ないたいと言うときに、回帰分析は有用である。 構造のシンプルな単回帰分析でこの手法の原理を理解しよう。

    1. プログラム : les0301.sas
    2. 出力結果 : les0301.lst
                                   The SAS System                            2
                                                 17:01 Wednesday, July 1, 2009
                                 The REG Procedure
                                   Model: MODEL1
                            Dependent Variable: taijyuu 
      
                      Number of Observations Read         345
                      Number of Observations Used         345
      
                                Analysis of Variance
                                        Sum of         Mean
        Source                 DF      Squares       Square  F Value  Pr > F
      
        Model                   1        13606        13606   400.87  <.0001
        Error                 343        11642     33.94150                 
        Corrected Total       344        25248                              
      
                Root MSE              5.82593    R-Square     0.5389
                Dependent Mean       58.54638    Adj R-Sq     0.5376
                Coeff Var             9.95097                       
      
                                Parameter Estimates
       
                             Parameter       Standard
        Variable     DF       Estimate          Error    t Value    Pr > |t|
      
        Intercept     1      -71.56329        6.50601     -11.00      <.0001
        shintyou      1        0.77140        0.03853      20.02      <.0001
      
    3. 結果の見方
      • 回帰係数 : Parameter Estimate
          [この例] a=0.771, b=-71.6 ===> [体重]=0.771x[身長]-71.6
                 180cmの人の予想体重は、... 0.771x180-71.6=67.2

      • [発展] (以下の詳細は今回は扱わない)
      • 対象になったのは 345名。
      • 説明変量が予測に役立っているか?
        • 回帰に役立っているか : Prob>F : 小さいと有意(役立っている)
          [この例] 1% 未満(0.01%) なので役に立っていると言える。
      • 決定係数 : R-Square ( 相関係数 : R )
        • 目的変量が説明変量でどの程度説明しているかの割合。
        • 1 に近いほど当てはまりが良いと言える。
          [この例] 約半分(53.9%)を説明できている。
      • 説明変数が予測に役立っているか?
        回帰係数の検定(係数=0 か?) : Prob>|T| : 小さいと有意(ゼロではないと言える)
        [この例] 両者とも 1% 未満(0.01%) なので回帰係数はゼロではない(何らかの意味がある数字と言える)。

    4. どうやって直線を決める?
      • 予測誤差の2乗和を最小にする
      • 予測誤差って何? どこの大きさ? どこの長さ?
      • [重要] 誤差は「説明変量」の軸と垂直に取ることに注意せよ。
        • 誤差は測定時に混入していると考えてモデルが構築されているから。
        • 正規分布の登場!

      • 複数の説明変量 ===> 重回帰分析
        • 「身長と胸囲を聞いて、体重を予想する」と言った使い方。
        • 誤差(残差)の取り方や、その2乗和を最小にするという考えは同じ

  6. [発展] 解析する上での注意点 (今回は扱わない)

  7. 誤用?!  [例1] 人間の成長曲線
     [例2] 将来のプログラマ必要数予測 : 21世紀(?)には国民全員がプログラマ ('80s)
     [例3] オリンピック 100m 走の男女記録 : 2156年には女性の方が速い (2004.09.30) :
           Japan Journal LTD の記事 , Japan Journal LTD の記事 , 朝日新聞 の記事
         [究極の命題!] 100m に 0.00秒 要する(!?)ようになるのは何時?

  8. [発展] 他の基準 (今回は扱わない)

  9. 偏差値

  10. [話題] 得点調整

  11. まとめ

  12. レポート課題
     他人と相談することなく、以下の事項について自分の技量でレポートを完成させ 提出ください。

  13. 最後に
     この3回の講義を通して、「統計」や「データ」と言う言葉に 多少なりとも親しみを持っていただけただろうか? 数式よりも数値に対する考え方に重点をおいて説明したつもりである。
     今後、実生活では勿論のこと、研究や仕事等 いろいろな場面で、種々の数値列に出会うことになると思うが、 提示された数値にはどの様な意味(と意図)があり、 どう理解して、個々人としてどうアクションを起すかの、 一つの判断手段として活用してもらえれば幸いである。

     皆さんの期待に応えられたか心許無い部分もありますが、 3週間、お疲れ様でした。

[DIR]講義のホームページへ戻ります