生成AIの仕組みと限界 — ChatGPTはなぜ間違えるのか
導入
ChatGPTに「富士山の高さは?」と聞いたら「3,875メートルです」と自信満々に答えた――正解は3,776メートルなのになぜ間違えるのでしょうか。AIは「意味を理解して答える」のではなく、「確率的にもっともらしい言葉を並べる」仕組みで動いているためです。いま私たちの身の回りでは、ChatGPTによる文章作成・画像生成AI・プログラミング支援ツールなど生成AIを活用したサービスが急速に普及しています。生成AIの基本的な仕組みと限界、そして類似技術との違いを正しく理解することが、ITリテラシーの基礎として求められています。
なぜ重要か
ITパスポート試験は2023年(令和5年)以降、生成AI関連の出題を大幅に増やしています。シラバスバージョン6.3では「生成AI」が独立したテーマとして明示され、生成AIの仕組み・活用方法・リスク・倫理的課題が試験範囲として位置づけられました。この領域を得点源にできるかどうかが合否に直結する重要テーマです。実務でもMicrosoft CopilotやGoogle Workspaceの生成AI機能が企業に導入されており、適切に使いこなせるかどうかが基本スキルとして評価される場面が増えています。一方で、誤情報を生成する「ハルシネーション」や「バイアス」「著作権・プライバシー問題」といったリスクを知らずに使うと機密情報の漏洩につながる恐れもあり、試験で学ぶリスク知識の社会的重要性は高まっています。
くわしく知ろう
生成AIとは、テキスト・画像・音声などのコンテンツを確率的に生成する技術の総称です。その中心にあるのが「大規模言語モデル(LLM: Large Language Model)」で、膨大なテキストデータを学習し「次に来る言葉として最も確率が高いのは何か」を推定しながら文章を組み立てます。利用者が入力する指示文を「プロンプト」、AIがテキストを処理する際の最小単位を「トークン」と呼びます。処理できるトークン数の上限がAIの扱える文章の長さに影響します。
この仕組みゆえに起こるのが「ハルシネーション(幻覚)」です。AIが事実と異なる情報をあたかも正しいかのように生成してしまう現象で、存在しない文献の引用や誤った数値データが典型例です。AIは「正解かどうかを検証する」のではなく「もっともらしさで出力を選ぶ」ため、ユーザー側がファクトチェック(事実確認)の習慣を持つことが重要です。
生成AIの種類は出力形式によって3つに分類できます。テキスト生成AIはChatGPT(OpenAI)・Gemini(Google)・Claude(Anthropic)が代表例で、文章作成・翻訳・要約・コード生成に活用されます。画像生成AIはStable DiffusionやMidjourneyが代表例で、テキストから画像を生み出します。コード生成AIはGitHub Copilotが代表例で、プログラマーの補助ツールとして普及しています。
生成AIと他のAI技術の包含関係も整理しておくことが重要です。人工知能(AI)の大きな枠組みの中に機械学習があり、機械学習の中にディープラーニングがあり、生成AIはディープラーニングを活用した応用技術という関係になっています。機械学習は過去データからパターンを学習して予測・分類を行う技術で、スパムフィルターや商品レコメンドがその応用例です。生成AIはディープラーニングを基盤にしつつ「新しいコンテンツを作り出す」点が従来の機械学習と大きく異なります。
生成AIと混同されやすいRPA・IoT・BIは目的が異なります。RPA(Robotic Process Automation)は決まった手順の定型作業をソフトウェアロボットで自動化する技術で、新しいコンテンツを「生成」する機能はありません。IoT(Internet of Things)はモノをインターネットに接続して情報を収集・制御する技術です。BI(Business Intelligence)は蓄積データを分析してグラフや集計表として可視化するツールです。これら3つは「既存データを扱う」のに対し、生成AIは「新しいコンテンツを作り出す」という点で本質的に異なります。
生成AIには倫理的課題も存在します。著作権の問題では、学習データに既存著作物が含まれており類似コンテンツを生成した場合の権利関係が整理されていません。バイアスの問題では、学習データの偏りが出力にも影響し差別的な表現が出力されるリスクがあります。プライバシーの問題では、プロンプトに入力した個人情報や機密情報がサービス提供者に閲覧される可能性があり、業務利用時は会社のセキュリティポリシーに従うことが求められます。
具体例で理解する
文章作成の場面では「〇〇について300字でまとめてください」とプロンプトを入力すると、AIが文章の草案を自動生成します。ただし「〇〇社の最新決算情報を教えて」と聞いたとき、AIがもっともらしい数値を作り出してしまうことがあります。またAIの学習データには時間的な切れ目(カットオフ)があり最新情報が反映されていない場合もあります。実際の文章に使う情報は必ず公式サイトや報道機関の記事で事実確認が必要です。
RPAとの使い分けを考えると両者の違いが明確になります。「毎月同じ手順でシステムにログインして請求書データを入力し完了メールを送る」作業はRPAが得意です。手順が決まっていて例外が少ないほどRPAの効果が高まります。一方「取引先から届いた内容の異なるメールを読み取り状況に応じて返信文を作成する」ような文脈理解と柔軟な文章生成が必要な作業は生成AIが適しています。「手順が固定されているか・新しいものを作る必要があるか」を見極めることが両者の使い分けのポイントです。
試験での出題パターン
【パターン1:生成AI・RPA・IoT・BIの区別を問う問題】
「テキストを入力すると文章や画像を自動生成する技術はどれか」「月次レポートをシステムに自動入力する処理に適した技術はどれか」という形式で出題されます。生成AI=新しいコンテンツを生成、RPA=定型作業を自動化、IoT=モノをインターネットに接続して情報収集・制御、BI=蓄積データを分析・可視化して経営判断を支援、という定義と代表用途を正確に覚えることが鍵です。
【パターン2:ハルシネーションの定義と対応策を問う問題】
「AIが事実と異なる情報を自信を持って出力する現象と、利用者がとるべき対応の組み合わせとして正しいものはどれか」という形式が典型的です。現象名(ハルシネーション)と適切な対策(信頼できる情報源での事実確認)がセットで問われます。誤りの選択肢として「フィルターバブル」「エコーチェンバー」「ディープフェイク」などが並ぶため、これらの用語の意味も押さえておくと消去法で正解を選びやすくなります。
よくある間違い・紛らわしいポイント
【生成AIと機械学習の違い】
機械学習は既存データからパターンを学習して「予測・分類・判定」を行う技術です。迷惑メールの判定・商品レコメンド・画像認識などが代表例です。生成AIは学習データをもとに「新しいコンテンツを作り出す」ことに特化しています。ディープラーニングは機械学習の一手法であり、生成AIの土台技術として使われています。「ディープラーニング⊂機械学習⊂AI」という包含関係を押さえておきましょう。
【ハルシネーションとフェイクニュースの違い】
フェイクニュースは人間が意図的に虚偽の情報を作成・拡散するものです。ハルシネーションはAIが悪意なく、確率的に誤った情報を生成してしまう現象です。「意図的に人間が作るか」「AIが非意図的に生成するか」が最大の違いです。試験では「AIが誤情報を出力した事例=ハルシネーション」と判断できることが重要です。
【ディープラーニングとディープフェイクの混同】
ディープラーニングはAIの学習技術そのもので、画像認識・音声認識・自然言語処理などに活用されるニュートラルな技術です。ディープフェイクはディープラーニングを悪用して人物の顔や音声を差し替えた偽動画・偽音声のことです。技術そのものと、その技術の悪用事例という関係性を正確に理解しておきましょう。
まとめ・試験ポイント
- 生成AI=テキスト・画像・コードなどを新たに生成する技術。ChatGPT・Gemini・Claudeが代表例
- LLM(大規模言語モデル)=生成AIの中心技術。プロンプトへの応答を確率的に生成する
- プロンプト=AIへの指示文。トークン=AIがテキストを処理する際の最小単位
- ハルシネーション=AIが事実と異なる情報を自信を持って出力する現象。対策はファクトチェック
- RPA=定型業務の自動化、IoT=モノのインターネット接続、BI=データ分析・可視化(生成AIとは目的が異なる)
- AI⊃機械学習⊃ディープラーニング という包含関係を押さえておく
- 生成AIの倫理的課題=著作権・バイアス・プライバシーの3つが試験頻出
- ディープフェイク=ディープラーニングを悪用した偽動画・偽音声(技術本体とは別物)
学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。
入門試験100問に挑戦する