← プロデジ（データ・AI）想定問題集トップへ

科目A: AI技術・生成AI（問21〜28）

問23

強化学習の特徴として最も適切なものはどれか。

A入力と正解ラベルの組が大量に与えられ、それを写像する関数を学習する

Bラベルなしデータからクラスタ構造を発見する

Cエージェントが環境から観測と報酬を受け取り、累積報酬を最大化する方策を試行錯誤で学習する

D事前学習済みのモデル重みを一切変更せず、推論のみを行う

解説

強化学習は、エージェントが環境から観測と報酬を受け取り、累積報酬を最大化する方策を試行錯誤で学習する手法です。ゲームAI、ロボット制御、推薦システムの最適化、生成AIの人間フィードバック学習（RLHF）などに用いられます。