StatModel1903a 1) CBT(Computer-Based Testing) 利点 出題にマルチメディアが利用可能 <===> PBT(Paper-Based Testing) 受験者への設問のデリバリーが容易・安価 解答の電子化が容易、採点も容易 障害者対応も容易かも(文字の拡大、音量の調整等) 解答過程のログが取れる(解析するかは別であるが) 動的出題(Adaptive, CAT)も実装可能 = 短時間で測定できる e-Learningでの利用が想定される (任意の時刻・場所で試験実施が可能) <=== 選抜試験には不要 欠点 装置不具合の危惧 = DNCリスニング機器(少部品点数)でさえ発生・対応してきた過去 膨大なItem Bankが必要。Item Bankの管理(統計量、履歴、プレテスト等)も必要。 Itemは原則非公開。 アジアでの失敗例: TOEFLの設問窃盗(2000年前後)。Item自動生成の研究が過去にはあったがその後聞かない。 2) Item Bank、Item Pool、項目銀行(設問銀行) 利点 質の高い出題が可能 教育課程の整備をベースに = 医学部共用試験等(コアカリキュラムの存在) 欠点 開始時の設問数の確保・その方策。膨大な数の必要性。 事前評価(プレテスト)が必須 初出設問(Virgin Item)ではない <===> 日本では初出設問だけで実施してきた過去 日本の特性: 教育課程改定(概ね10年間隔)への対応 溜めた設問の秘匿が継続的に保持できるのかの疑問 = アジア諸国の国民性 Itemの自動生成の徒労 アジアで選抜試験(ハイステークステスト)での導入事例はあるのか? 韓国? 3) IRT(Item Response Theory、項目反応理論) 単答式の出題しか分析できない <===> 日本の出題文化としての大問形式は対象外 個々のItem(設問)の独立性 能力の1次元性 <=== 多様性を測ろうとしている時代に 選抜試験における変換点(Scaled Score)の受容が進むか? : 資格試験(TOEFL、TOEIC等)での普及で進んだのか?? 目的関数が複雑(多次元多峰性)で最適解が求まる保証がない。擬似的に求まっているだけ。 ===> 計算技術の問題ではない。計算手法が変わったら最適値が変わる可能性大。 ※[危惧] 単答式の出題=知識を問う設問になりがちではないか? 4) 顕在変量と潜在変量のせめぎ合い 顕在変量:主成分分析(Principal Component Analysis, PCA), 回帰分析(Regression Analysis, RA) <=== 線形計算、行列計算 潜在変量:因子分析(Factor Analysis, FA), IRT, 潜在クラス分析(Latent Class Analysis, LCA) : 測定できない。確認の手段がない。恣意性の入り込む余地。 IRT: Lord(1952), Lord & Novick(1968) Lord, Frederic M. (1912-2000) Novick, Melvin R. (1932-1986) LCA: Lazarsfeld(1968) Lazarsfeld, Paul Felix (1901-1976) シンプルなモデル(素朴?) 計算パワーの貧弱な時代 学力を表現するにはシンプル過ぎるモデル 実験室に留めておくべきだった 計算パワーが上がり無理やり計算できる時代だが、モデルが改善されたわけではない 5) IRT再考 誤差を考慮していないモデルになっているように思える(cパラメータの意味ではなく) BILOG-MGは誤らない? ブラックボックス化の怖さ、昔の統計ソフト(1980年代)、確認の手段がない。 龍岡 菊美(1931-2016): Rule Space Method(RSM)提案者 「(IRTの利用に関して)ETS内でおかしなことが一杯起こってるのよ。」 6) IRTの生きる道 測定・評価用として(教育、学校現場) 修正が効く。教員がそばにいるから。多人数にも対応化。教員の支援にも使える。 達成度試験、資格試験: Item Bankも有用だろう 選抜用として(入試) 人生の進路選択を誤る可能性をはらんでいる 誰が責任を取れるのか? IRTは向かないと考えている ローステークステスト <===> ハイステークステスト 適材適所で利用できる領域はあるはず 「定期試験、評価」と「入試、選抜」は明確に分離して考えるべき 実社会への送り出し方:誤解のない利用方法を確立した上で 9) まとめに代えて アメリカ: 出口管理の国 そこで使えるものが何でも日本でそのまま使えるとは限らない。文化に依存。 日本: 入口管理の国 日本の文化に即した技術の確立・利用 素点、単純な合計点 選抜試験: 複数の単元が一つの科目になっている 潜在変量を世の中に出す恐ろしさ そこまでするメリットがあるのか?