実験計画法:
製品開発や工程管理で種々の実験を行う。
その際に幾つか条件(因子)を変えて実験を行うことになるが、
全ての組み合わせの中で
どの条件が一番目的に適している(収量が多い等)かを判断する手法として
実験計画法がある。
因子数や実験の手順等で幾つかのバリエーションがあるが、
ここではその基本となる1因子を取り扱うモデルを端緒として紹介する。
実験計画法の基本的な考え方は、要因間のばらつきと、
外乱(誤差)のばらつきを比較して、要因間のばらつきが大きいければ
収量の違いには「要因による意味のある差(有意)」が存在すると判断することである。
その際に用いるアイディアとして、全体のばらつきを、
要因間のばらつきと外乱(誤差)のばらつきに算術的に分解出来ることである。
ST=SA+Se
ばらつきの指標が分散なので、「分散分析」を行い判断することになる。
大きさの比較として比を用い、分散の比はF分布に従うことを利用して検定を行う。
- 一元配置(母数模型): 資料 p133-
- 一元配置(変量模型): 資料 p141-
- 二元配置(繰り返しなし): 資料 p146-
- 直行配列
ここではもう取り扱わないが、
因子数が多くなり、また各因子の水準数が多くなると、実験回数は指数的に
多くなってしまう。これでは時間やコストがかさみ、
場合によっては均質な実験環境が保てないことも有り得るので、
実験回数を少なくしたい。
どの水準組み合わせが目的に適した組み合わせかを
効率的に探索する手法として直行配列がある。
因子数と水準数によってその組み合わせに対応した直交表を用いることになる。
その他の多変量解析手法
多変量解析の統計手法としては、これまで取り上げたもの以外にも幾つかあるが、
知っておくと良い物を列挙しておく。詳しくは各自で調べてほしい。
- 判別分析: 線形判別、二次判別、非線形判別
- データの属するグループが予め判っているときに、
データに基づいて分類する関数を求める手法。
判別する関数が線形か、二次関数かで手法が細分化される。
教師あり学習の分類手法と言える。
新しいデータが得られた際にどのグループに属するかを判断することができる。
- クラスター分析: 階層クラスタリング、非階層クラスタリング
- 判別分析と異なり、得られているデータがどのグループに属するかが
判っていないデータに対して、似た特性(類似度)を持ったサンプルを集めて
集団(クラスター)を作り、データを分類する手法である。
「類似度」の意味付けから幾つか分類手法がある。
階層クラスタリングの場合はデンドログラム(樹形図)が得られ、
分割数を決定する際に有用である。
教師なし学習の分類手法と言える。
新しいデータが得られた際にどのグループに属するかを判断することができる。
- 数量化理論 第I類, 第II類, 第III類, 第IV類
- 一部変量に質的データ(参照:
第4回 第7節
)を含んだデータに対する分析手法。
データのタイプにより用いる手法が異なる。
- 林 知己夫が考案した日本独自の統計手法。
.
ビッグデータ時代にを生き抜くために
Q3を終えるにあたって、これまでの経験から
ビッグデータ時代 & データサイエンスに付いての若干の私見を述べる。
- ビッグデータ: 明確な定義はない
- 3V: Volume(容量), Velocity(更新頻度), Variety(多様性)
- AIブーム: 過去の蓄積から似たデータを取り出して活用
- データストレージの発達
- センサーの充実、普及 ===> 大量データ の生成時代
- 「押し寄せてくるデータ」への対処
- 【これまで】 能動的なデータ採取 ===> 【これから】 受動的なデータ採取
- 初等中等教育にも「統計教育」が導入。大学入試には H27年度から。
- 思考力、判断力、表現力、読解力
- 「統計的なものの見方や考え方」を身に付けてもらう
- 知識暗記型の教育からの脱皮 ===> データに基づいた問題解決力の育成
- 社会を生き抜いていくための有用なスキル
- [懸念] 高校の教員が対応できるのだろうか?
- ビッグデータ時代のデータサイエンス
- 分析結果の質 <=== データの質に依存
- 「データの取り扱い」を中心に据えた分析姿勢
- 「膨大なデータを前にして本質を見抜く力」
- 重要: データ+教育+現場主義