基礎統計量、分析結果のダウンロード、ヒストグラム、頻度集計

統計モデル解析特論I/II : 第11回 (12/22/20)

  今回は統計処理をする場合に手始めに行うべき処理としての幾つかの方法を 理解してもらうと共に、出力結果の利用方法を紹介する。 加えて、グループごとの集計方法を習得する。
  1. 先週のショート課題: 9名

    [補足1] 先週の講義時に得られた情報(Webブラウザとの相性、Macでファイルアップロード) について、加筆したものをVer.2として掲載しておきました。
    [補足2] 加えて、ファイルのアップロードに関しては、 Windowsにおいても「Drag&Drop」でファイルを指定できることを確認しました。

  2. 基礎統計量

  3. 「平均」の意味するもの : 中間? 真ん中? 代表値? 大体の目安? ...

    貯蓄現在高 階級別世帯分布 (二人以上の世帯)
    グラフ 貯蓄現在高回級別世帯分布(二人以上の世帯) 2019

    分布形状と統計量

  4. 計算結果を活用した報告書・レポートの作成手順
     報告書(レポート)を作成するような場合、いちいち画面を書き移すようなことはせず、 SAS の「計算結果」を引用すると簡単でかつ間違いが減り好都合である。 そのためには、「計算結果」をファイルに保存した計算結果を 手元のPCにダウンロードして、編集するのが良いであろう。
     ただし、報告書には計算結果は全部を引用するのではなく、 必要部分だけを切り出し、それぞれに説明を付与する事によって完成するのが、 受け取った人に無駄な労力を払わせずに好印象を持たれると思う。

    1. データを電子化する : Excelで ===> 前回 第7節
    2. データファイルをSASに転送する(アップロード) ===> 前回 第8節
    3. データをファイルから読み込むように SAS プログラムを記述する ===> 前回 第9節
    4. 便利なコマンド ===> 前回 第10節
    5. これらを反映させたサンプルプログラム ===> 前回 第11節
    6. 計算結果の保存
      • [結果タグ]に表示されている計算結果をhtml(左端のアイコン)やPDF(左から2番目のアイコン)に保存する。また、プログラムの最初のところで指定した「proc printto print」による出力(テキストファイル形式)は、指定したファイルに保存されている。
    7. ファイルに保存された計算結果を手元のPCにダウンロードする。
      • データ転送の時と同様に、Navigation Pane(画面左側)で ダウンロードしたいファイルの存在するディレクトリを選択後、 ダウンロードしたいファイルの上で右クリックして「Download File」を選択すると、 手元のPCにファイルがダウンロードされる。 同様の作業はNavigation Pane上部の「下矢印アイコン」でも指定することが可能である。
    8. SAS を終了する。
    9. ダウンロードした出力結果を参照しながらワープロやエディタを使って、 レポートを作成する。出力の必要部分だけを切り出して、報告書に引用する。 その際に、有効桁数等には注意して利用せよ。
       なお、PDF の一部を切り出すことが困難な場合は、別添資料として レポートの後ろに添付して下さい。
    10. 電子メール(メール本文に挿入。もしくは添付ファイル)で提出する。

  5. ヒストグラムと頻度集計

    [最近見つけた話題から] : 平均値、累積割合

  6. [演習2] 上記の例では頻度集計(freq)にtou やda等の 名義尺度変量(離散変量)を使って集計したが、 shintyou やtaijyuu等の連続変量(数値変量)を使っても実行できる。 その際の出力はどのようになるかを予想し、その後実際に実行してみよ。 出力結果は何を表現し、また、予想は正しかったか?

  7. 頻度集計(連続変量の場合) : 度数の把握、クロス表

    1. プログラム : Lesson 11-4 : les1104.sas
       /* Lesson 11-04 */
       /*    File Name = les1104.sas  12/22/20   */
      
      options nocenter linesize=78 pagesize=30;
      options locale='en_US';
      /* options locale='ja_JP'; */
      proc printto print = 'StatM20/les1104-Results.txt' new;
      
      data dragons;
        infile 'StatM20/Dragons20.csv'
          firstobs=8 dlm=',' dsd missover 
          encoding=sjis termstr=crlf;
        input No $ Name : $24. Pos $ DoBY DoBM DoBD
              shintyou taijyuu tou $ da $ bikou $;
      
      proc format;                           : 階級を作る。class shintyou の意
        value cl_shin  low-<170='   -170'    : 階級の定義 1
                       170-<175='170-175'    :            2
                       175-<180='175-180'    :            3
                       180-<185='180-185'    :            4
                       185-<190='185-190'    :            5
                       190-<195='190-195'    :            6
                       195-<200='195-200'    :            7
                       200-high='200-   '    :            8
                       other   ='missing';   :            9
      run;                                   :
      
      proc freq data=dragons;                :
        table shintyou;                      : 変量の指定(1変量の場合)
        table shintyou*tou;                  : 変量の指定(2変量組み合わせの場合)
        format shintyou cl_shin.;            : 連続変量をグループ化することの指定
      run;                                   :
      
      

    2. 出力
      
       <<< 前略 >>> 
                                           Friday, December 18, 2020 10:19:12 AM  71
      The FREQ Procedure
                                           Cumulative    Cumulative
      shintyou    Frequency     Percent     Frequency      Percent
      -------------------------------------------------------------
          -170           2        2.63             2         2.63  
       170-175           3        3.95             5         6.58  
       175-180          21       27.63            26        34.21  
       180-185          31       40.79            57        75.00  
       185-190          14       18.42            71        93.42  
       190-195           5        6.58            76       100.00  
      
                          Frequency Missing = 1
      
                                           Friday, December 18, 2020 10:19:12 AM  72
      The FREQ Procedure
      
      Table of shintyou by tou
      
      shintyou     tou
      
      Frequency|
      Percent  |
      Row Pct  |
      Col Pct  |右      |左      |  Total
      ---------+--------+--------+
         -170  |      2 |      0 |      2
               |   2.63 |   0.00 |   2.63
               | 100.00 |   0.00 |
               |   3.28 |   0.00 |
      ---------+--------+--------+
      170-175  |      3 |      0 |      3
               |   3.95 |   0.00 |   3.95
               | 100.00 |   0.00 |
               |   4.92 |   0.00 |
      ---------+--------+--------+
      175-180  |     16 |      5 |     21
               |  21.05 |   6.58 |  27.63
               |  76.19 |  23.81 |
               |  26.23 |  33.33 |
      ---------+--------+--------+
      180-185  |     25 |      6 |     31
               |  32.89 |   7.89 |  40.79
               |  80.65 |  19.35 |
               |  40.98 |  40.00 |
      ---------+--------+--------+
      185-190  |     11 |      3 |     14
               |  14.47 |   3.95 |  18.42
               |  78.57 |  21.43 |
               |  18.03 |  20.00 |
      ---------+--------+--------+
      190-195  |      4 |      1 |      5
               |   5.26 |   1.32 |   6.58
               |  80.00 |  20.00 |
               |   6.56 |   6.67 |
      ---------+--------+--------+
      Total          61       15       76
                  80.26    19.74   100.00
      
      Frequency Missing = 1
      

  8. [演習3] 上記の例では身長について、階級ごとの頻度を調べた。 では、これを参考に体重についても調べてみよ。






  9. サンプルデータ: 学生のアンケートデータ(StudAll20e.xlsx)

  10. [演習4] 前項で示したデータに対して、 これまで紹介したProcを使って幾つかの集計を各自で試してみよ。
     [コメント] データの読み込み技術の習得が一つの大きな関門になっていると感じている。今後各自の電子データを自力で読み込めるようになってほしいと考えているので、前項のデータを例にノウハウを獲得してほしい。






  11. [再掲] 興味のあるデータを電子化して持参せよ。

  12. 次回は、... : 01月12日(火) 16:20-17:50 @2311教室【対面講義? or リモート講義?】