- その他の多変量解析手法
多変量解析の統計手法としては、これまで取り上げたもの以外にも幾つかあるが、
知っておくと良い物を列挙しておく。詳しくは各自で調べてほしい。
- 判別分析: 線形判別、二次判別、非線形判別
- データの属するグループが予め判っているときに、
データに基づいて分類する関数を求める手法。
判別する関数が線形か、二次関数かで手法が細分化される。
教師あり学習の分類手法と言える。
新しいデータが得られた際にどのグループに属するかを判断することができる。
- クラスター分析: 階層クラスタリング、非階層クラスタリング
- 判別分析と異なり、得られているデータがどのグループに属するかが
判っていないデータに対して、似た特性(類似度)を持ったサンプルを集めて
集団(クラスター)を作り、データを分類する手法である。
「類似度」の意味付けから幾つか分類手法がある。
階層クラスタリングの場合はデンドログラム(樹形図)が得られ、
分割数を決定する際に有用である。
教師なし学習の分類手法と言える。
新しいデータが得られた際にどのグループに属するかを判断することができる。
- 数量化理論 第I類, 第II類, 第III類, 第IV類
- 一部変量に質的データ(参照:
第4回 第11節
)を含んだデータに対する分析手法。
データのタイプにより用いる手法が異なる。
- 林 知己夫が考案した日本独自の統計手法。
.
- 実験計画法 ===> Q4 で石井先生が取り上げてくださる。お楽しみに。
- 効率的な実験(調査)を行い、有用な知見を得るための統計手法。
品質管理等では多用されている。日本で発達した部分も多い。
- “データサイエンス”に求められるもの
私の担当部分を終えるにあたって、これまでの経験から
データサイエンスに付いての若干の私見を述べる。
- ビッグデータ: 明確な定義はない
- 3V: Volume(容量), Velocity(更新頻度), Variety(多様性)
- AI ブーム: 過去の蓄積から似たデータを取り出す
- データストレージの発達
- センサーの充実、普及 ===> 大量データ の生成時代
- 「押し寄せてくるデータ」への対処
- 【これまで】 能動的なデータ採取 ===> 【これから】 受動的なデータ採取
- 初等中等教育にも「統計教育」が導入。大学入試には H27年度から。
- 思考力、判断力、表現力、読解力
- 「統計的なものの見方や考え方」を身に付けてもらう
- 知識暗記型の教育からの脱皮 ===> データに基づいた問題解決力の育成
- 社会を生き抜いていくための有用なスキル
- [懸念] 高校の教員が対応できるのだろうか?
- ビッグデータ時代のデータサイエンス
- 分析結果の質 <=== データの質に依存
- 「データの取り扱い」を中心に据えた分析姿勢
- 「膨大なデータを前にして本質を見抜く力」
- 重要: データ+教育+現場主義
- Q3のレポート課題
この2ヶ月間(クォーター3, Q3)を通して学んできた多変量解析の手法を、
自分が収集したデータに適用してみて、興味深い知見を得る体験をしてもらう。
- 対象データ :
- 自分で収集したデータ。
- 一つである必要はない。複数でも良い。
- 作業内容 :
- 自分の手慣れた統計ソフトウェアを使って解析し、興味深い知見を引き出そう。
- 以下の点に注意しながらレポートを作成しよう。
- 利用する多変量解析の手法ついては、特に制限や指定はしない。
- 興味を持った点や得られた知見に対する考察は人によって個々異なるもので
あるので、他人と相談することなく自分の力で解析しレポートを作成すること。
- レポート課題 : 以下に挙げるような項目を含めて作成すること。
- [必須項目1]: データ分析
- 学籍番号、氏名
- データ内容の説明
- どのような点に興味を持ったか
- 自分の解析目的
- 何を知りたいためにどのような手法を使ったのか
- 得られた知見と考察
- その他、気付いたこと
- [必須項目2]: 統計の捉え方
- 本講義を受講することによって「統計」に抱くイメージが
変化したかを述べよ。変化した場合 or しない場合の各々で、
現状でどのように感じているか、
また今後自分として統計に対してどのように取り組みたい/取り組みたくないかを説明せよ。
- [任意項目(コメントがあれば嬉しいな)]: 講義方法、講義の進め方
- 加えた方が良い or 取り上げる必要はない と思われる講義内容
- 講義全体を通しての感想 : 今後の参考にしたいので
- メールの題名(Subject)は「Report18Q3: Ukai」のように、
2018年クオーター3のレポート提出であることと、
提出者名が判るようなタイトルを
付けるようにしてください。
なお、レポートはWord ファイルやPDF ファイルを添付して送信下さい
(ご希望であればメール本文にテキストを記述してくださってもかまいませんが、
図表を含めることが難しいので選択肢からは外れるでしょう)。
- 提出期限は「12月13日(木)」とします。
「不達事故」を避けたいので、受け取ったら確認のために提出者の学籍番号は
連絡のページ
に掲載します(受領後3日以内に)ので、確認下さい。
なお、期限までに提出しなかった者
には単位の認定を行いませんので、ご了承下さい。
- 最後に
この講義を通して、「統計」や「データ解析」と言う言葉に
多少なりとも親しみを持っていただけただろうか?
統計手法については、数式よりもその手法の考え方や利用目的に重点をおいて
説明したつもりである。
時間やPC環境の関係で、統計ソフトを使いながらの講義とできなかったことは
残念である。
今後、新聞や雑誌と言った生活では勿論のこと、
いろいろな場面で、種々の数値列に出会うことになると思うが、
提示された数値にはどの様な意味(と意図)があり、
どう理解して、個々人としてどうアクションを起すかの、
一つの判断手段として活用してもらえれば幸いである。
なお、今後、もし統計に関して何か疑問に出会い、私に相談してみたいと思った際は、
遠慮無くご連絡下さい。
皆さんの期待に応えられたか心許無い部分もありますが、2ヶ月間ご苦労様でした。
- 次回は、... : 11月26日 13:00-14:30