研究コラム│CBTによって変わる，広がる教育テストの可能性│ベネッセ教育総合研究所

激しい社会変化のなかで、子どもや大人の生活や学びはどのように変化しているのか。
そこに現れるさまざまな社会課題に対して、ベネッセ教育総合研究所はどのような取り組みをしているのか。
当研究所の研究員たちが、自身の研究も踏まえながら課題や展望を論じます。

CBTによって変わる，広がる教育テストの可能性

ベネッセ教育総合研究所教育基礎研究室長／主席研究員加藤健太郎

利用が拡大するCBT

「CBT」とはcomputer-based tests，すなわちコンピュータ上で実施されるテストを指す¹。現在，世界的な動向としてCBTの導入，紙版のテストからCBTへの移行が進んでいる。

国際的な動きとして，2023年12月に，2022年OECD生徒の学力調査（PISA 2022）の結果が発表された。PISAは3年おき（2022年はコロナの影響で4年ぶり）に実施される国際調査であり，「読解リテラシー」「数学的リテラシー」「科学的リテラシー」の3つの主要分野における15歳の生徒の学習到達度を測定するテストが実施される。このPISAでは，2015年のテストから本格的にCBTが導入されているが，2015・2018年のPISAにおいて日本の読解リテラシーの成績が下がった要因の一つとして，日本の生徒がCBTの解答形式・問題形式に不慣れであったためではないかという点が挙げられたことは記憶に新しい（ただし，最新のPISA 2022では日本の読解リテラシーの成績は上昇に転じている）。

日本国内では，文部科学省がMEXCBT（メクビット＝文部科学省CBTシステム）の整備を進めている。2021年より希望のあった小学校・中学校・高校等での活用を開始し，オンラインで学習・テストができるCBTのプラットフォームとしてGIGAスクール端末と併用して授業や家庭学習での活用が期待される他，全国学力・学習状況調査等の公的調査での利用も検討されており，令和7年度の全国学力・学習状況調査において理科の試験を全面的にCBTで実施し，以降段階的に他の教科の試験にも拡大していく方針が打ち出されている。

TOEFL等の言語テスト，情報処理技術者試験等の資格試験，SPI等のビジネステストといった分野では早期にCBTが導入されているが，教育のデジタル化の進行に伴い，上に挙げた例に見られるように初等・中等教育におけるテストにもCBTの導入が加速している。本稿では，テスト理論を専門とする筆者が，教育領域におけるCBTの現状や今後の課題について考える。

※1 （インター）ネット上で実施するテストを特に「internet-based testing (IBT)」「web-based testing (WBT)」「eテスティング」などと呼ぶこともある。また，受検者の自前の環境でネットに接続して受検するテストをIBT，テストセンターのような会場に受検者を集めて実施するテストをCBTと呼んで区別することもある。本稿ではこうしたテストをCBTという呼称で統一する。

CBTの利点

CBTは，従来の紙で行っていたテストをコンピュータに移植しただけのものではない。コンピュータ上でテストを実施することで，一般的に以下のような様々な利点が生まれる（例：植野・永岡, 2009）。

テストの実施・運用上の利点

テスト冊子や解答用紙の製作・印刷・運搬にかかるコストの削減やセキュリティの改善が期待できる。
テストの採点が効率化され（一貫してコンピュータ上で処理できる），受検から結果の返却までの時間が短縮できる。

能力測定上の利点

マルチメディア（音声・動画）による問題の提示や解答，画面上で問題の構成要素の操作をする（例：グラフを描く，図形を動かす，リンクをクリックして複数の資料を参照する）といったインタラクティブな要素を取り入れた問題が実装可能となり，従来の紙のテストで十分に測定できていなかった能力の側面が測定可能になる（妥当性の向上）。
受検者ごとに提示するテスト問題を柔軟に選択できる。特に，受検者の能力レベルに応じて最適な難易度の問題を逐次出題する（これを適応型テストと呼ぶ）ことで，テストに出題する問題数やテスト時間を短縮することができる（測定の効率化）。

受検者にとっての利点

ネットへの接続と適切な受検環境さえあれば時間と場所を選ばない受検が可能となる（利便性の向上）。テストの実施方針によっては，同じテスト（ただし問題は異なる）を複数回受検することや，遠隔地に住む者がわざわざテスト会場に出向くことなく受検することなどが可能になる。
障がいを持つ受検者への対応（アクセシビリティの向上）。例えば，拡大表示や色の調整，音声による問題の読み上げや解答の入力など，従来は補助器具や補助員を必要とした機能が比較的容易に実現できる。

教育分野におけるCBTの進化

教育アセスメントを専門とする米国の教育学者のRandy Bennettは，現代におけるCBTの進化を3つの段階に分類・整理している（表１）。

表1. CBTの進化（Bennett, 2015を参考にして筆者が作成）
段階	特徴	技術・背景理論
第１世代	紙版テストの移植	項目反応理論適応型テスト
第２世代	CBTならではの問題・解答形式測定する能力の領域拡大	ITやAIの積極的な導入測定モデルの拡張
第３世代	テストの機能の転換（評価から学習そのものへ）	学習科学にもとづく設計テクノロジーの目的的な活用

第１世代のテストは，従来の紙で実施していたテストをコンピュータ上で実施・受検できるように移植したものである。項目反応理論（IRT）によって尺度が構成されているものや，前節で述べた適応型テストの機能が搭載されたものもある。

第2世代のテストを特徴づけるのは技術強化型項目，いわゆる「CBTならではのテスト問題」の導入である。例えば，冒頭に述べたPISAでは，複数のテキストをクリックで切り替えて行き来しながらブログに書かれた情報を読み解く問題（PISA 2018読解リテラシー；https://www.nier.go.jp/kokusai/pisa/pdf/2018/04_example.pdf），表計算を使って必要な情報を引き出す問題（PISA 2022数学的リテラシー；https://www.nier.go.jp/kokusai/pisa/pdf/2022/02_example_1.pdf）が出題されている。こうした問題は，現実的な場面で分野特有の知識や考え方をどの程度発揮・活用できるか，すなわち「リテラシー」を測定するというPISAテストの目的を踏まえて，問題の状況設定とその中で受検者が行う作業をなるべく現実的な文脈に近づけることを意図して設計されている。また，このような問題の解答過程において受検者が行った様々な操作を記録したものをプロセスデータと呼ぶが，こうした解答以外のデータを利用してより詳細な学習・習得状況を推定する試みもなされている。

第2世代のテストではまた，テストの開発・運用のプロセスの中でテクノロジーが積極的に導入される。表2の第１・２列にテストの設計開発から運用に至るプロセスと，各プロセスにおいて近年使われるようになりつつあるテクノロジーを示している。近年では特に自然言語処理と機械学習，特に生成AIを活用したテスト問題の自動生成や論述・口述解答の自動採点に注目が集まっており，実用化されつつある。また，高度な計算技術を駆使した，複雑な測定モデルの推定や自動テスト構成（要件に合致するテスト問題を数値計算によって選定する技術）も可能になってきている。

現在世に出ているCBTの多くが第１世代か，第２世代の中間くらいの段階にあると言われている（もちろん，紙で実施されているテストも数多く存在する）。教育のデジタル化の中にあっても，日々の学習に使われているデジタルドリルなどは紙版の焼き直しであるものが多いと考えられる。では，これらに続く第3世代のテストとはどのようなものなのだろうか。

表２. テストの開発から運用に至るプロセスと，各プロセスにおいて活用されるテクノロジーおよび学習科学の知見
開発・運用の段階	活用されるテクノロジー	学習科学の知見活用の効用
1.　フレームワーク（基本設計図）の作成		測定領域の明確化テスト仕様の精緻化
2.　問題作成	技術強化型項目自動作問	測定領域への関連性の向上項目仕様の精緻化
3.　予備テストおよび尺度構成（等化・項目バンク構築など）	機械学習による問題特性の推定や予測	測定モデルの精緻化
4.　テストの実施	自動テスト構成適応型テスト不正監視・検知	測定精度の向上個別最適化新しい実施形態
5.　採点	自動採点プロセスデータの利用	問題作成と連動した採点観点および基準の精緻化
6.　結果の利用	適応型学習ラーニング・アナリティクス	結果の解釈可能性向上教材・指導内容とのリンク

次世代アセスメント：よりよい学びを目指して

今後登場するであろう第3世代のテストは次世代アセスメント²と呼ばれている。次世代アセスメントは，第2世代同様にテクノロジーの積極的な活用を前提としつつも，オンラインでの学習環境を前提として，学習の評価ではなく学習への貢献により大きな比重が置かれる点が大きく異なる。言い換えれば，学習の結果を評価するためのアセスメント（assessment of learning）から，形成的評価や診断的評価と呼ばれる，学習状態を明らかにして次の学習の指針を与えるための「学習のためのアセスメント」（assessment for learning）や，課題に取り組むことがそのまま学習となるような「学習としてのアセスメント」（assessment as learning）への転換が謳われている。例えば，米国教育省の教育工学局のウェブページ“Measuring for Learning”では，表3のように従来の紙版ないしは第1世代のテストと次世代アセスメントが対比されている。

※2 本稿ではテスト分野における一般的な語用に従い，「テスト」と「アセスメント」を同義に用いる。

表３. 従来型のテストと次世代アセスメントの比較（https://tech.ed.gov/netp/assessment/より抜粋・翻訳）
観点	従来型	次世代型
実施のタイミング	学習後	学習中
アクセシビリティ	限定的	ユニバーサルデザイン
テスト（学習）の進行	固定	個別適応型
結果の返却	時間差あり	即時
主な項目の形式	汎用型	技術強化型

表3の観点の多くは既に述べたCBTのメリットの中にも含まれているが，次世代アセスメントでは，学習の改善をゴールとして，あるいは学習そのものを提供する機会として適切にテクノロジーを活用することが強調される。例えば，先に述べた「プロセスデータ」に関して，解答過程において収集し得るデータには，マウス操作（例：どの選択肢を選んだか／選び直したか），キーボードの打鍵記録，解答時間など様々なものが考えられる。こうしたデータが従来の測定をどのように・どの程度改善するかや，学習状態に関してどのような付加的情報をもたらすのかについては，研究レベルでも試行錯誤が繰り返されており，確たる知見が少ない段階である（例：北條，2023）。また，どのようなプロセスデータが収集できるかは，どのような問題を提示し，どのような作業を受検者に課すかによっても異なる。したがって，表２に示したテストの開発・運用のプロセスにおいて，各段階で独立にテクノロジーの活用を追求するのではなく，相互に連携して設計・実装を行うことが必要となる。こうした有機的な連携を可能にするのは，「どんな能力を育てる／測るのか」の定義と，そのためにどのような形であれば観測可能な「意味のあるデータ」が得られるかという目的的な設計姿勢である。ある問題が与えられたときに，人はどのようなやり方でその問題を解くのか（解答時の認知過程）の分析や，その認知過程と測定したい能力の関連性，人はどのようにその能力を身に付けていくのか（学習の進行）といったことに関する仮説や理論，すなわち認知科学や学習科学が提供する知見やエビデンスにもとづいてテスト全体を統一的に設計することが大切になってくると考えられる。表２の第３列に，学習科学の知見を活用による測定の改善への効用を各プロセスについて示した。

表3の「実施のタイミング」の観点はデジタル環境において学びとCBTが結びつくことで出てきたアイデアである。こうした動きの背景には，特に米国で問題視されているテスト過多（overtesting）や，テスト対策を主眼とした（望ましくない）学習・指導（learning/teaching to the test）といった問題がある。アセスメントが学習中に行われるということは，学習教材の中にその機能が組み込まれていることを意味する。例えば，「AI英会話」を提供するアプリやサービスは既に数多くリリースされているが，AIに対する発話を発音・流暢さ・表現の正確さなどの観点から瞬時に分析して逐次的に英会話のスキル状態を推定し，それに対してAIが「最適な」返答や問いかけを行うという形で学習と測定が同時に進んでいると言える。こうしたAIによって自動化された学習システムの妥当性や実効性については今後さらなる検証を待つ必要があるが，学習に統合された測定の一つのあり方を示しているのは間違いないであろう。近年，国内の中学・高校では定期テストを削減・廃止して単元テストを増やす動きが見られる（ベネッセ教育総合研究所, 2023など）。単元テストをデジタル教材に統合し，学習状態の測定を高頻度に行うことができれば，教える側・学ぶ側の双方にとって負担となるテスト過多やテスト対策といった問題の解決につながることが期待される。

学びの評価と，そのための測定の仕組みは，それが明示的に行われるかどうかは別として，学びのサイクルを回していくために必要不可欠なものである。学びの改善を目指して，CBTの使用を前提として「学習科学にもとづき，テクノロジーを有機的に活用した測定を行う」「学習とアセスメントの垣根を取り払う」。これらが今後の教育テスト研究において追求すべき二大課題であると考える。

参考文献

Bennett, R. E. (2015). The changing nature of educational assessment. Review of Research in Education, 39(1), 370-407. https://doi.org/10.3102/0091732X14554179
ベネッセ教育総合研究所 (2023). 小中学校の学習指導に関する調査：2022ダイジェスト版. https://berd.benesse.jp/up_images/research/shido2022_all_.pdf
北條大樹 (2023). CBT領域におけるプロセスデータ利活用研究の動向. 日本テスト学会誌, 19(1), 177-190. https://doi.org/10.24690/jart.19.1_177
植野真臣・永岡慶三（編著）(2009). eテスティング培風館.

プロフィール

加藤健太郎
ベネッセ教育総合研究所教育基礎研究室長／主席研究員
かとうけんたろう

東京大学大学院教育学研究科修士課程修了（教育学修士）、ミネソタ大学大学院統計学科修士課程修了（統計学修士）、ミネソタ大学大学院教育心理学科博士課程修了（教育心理学博士）。ミネソタ大学在学中にEducational Testing Serviceでインターンを経験。 2009年（株）ベネッセコーポレーション入社後、種々のアセスメント商品の開発・運用に測定の専門家（サイコメトリシャン）として関わる。並行して教育測定に関する研究活動・学会活動（学術誌編集委員）や、大学非常勤（東京大学他）などの教育活動を行う。2022年より現職。

ページのTOPに戻る

＞所在地

人と社会の幅広い課題に向けたベネッセの取り組み
電子書籍
高校生環境小論文コンクール

表２. テストの開発から運用に至るプロセスと，各プロセスにおいて活用されるテクノロジーおよび学習科学の知見
開発・運用の段階	活用されるテクノロジー	学習科学の知見活用の効用
1.　フレームワーク（基本設計図）の作成		測定領域の明確化テスト仕様の精緻化
2.　問題作成	技術強化型項目自動作問	測定領域への関連性の向上項目仕様の精緻化
3.　予備テストおよび尺度構成（等化・項目バンク構築など）	機械学習による問題特性の推定や予測	測定モデルの精緻化
4.　テストの実施	自動テスト構成適応型テスト不正監視・検知	測定精度の向上個別最適化新しい実施形態
5.　採点	自動採点プロセスデータの利用	問題作成と連動した採点観点および基準の精緻化
6.　結果の利用	適応型学習ラーニング・アナリティクス	結果の解釈可能性向上教材・指導内容とのリンク