ストラテジ系

ビッグデータとデータ活用 — 大量のデータから価値を引き出す

導入

SNSの投稿、ネットショッピングの履歴、信号機のセンサーデータ――世界中で毎日膨大な量のデータが生まれています。そのデータをうまく活用することで、企業は新たなビジネスチャンスを見つけたり、社会課題の解決に役立てたりできるようになっています。

なぜ重要か

ビッグデータとデータ活用は、ITパスポートのテクノロジ系・ストラテジ系両方で出題される横断テーマです。ビッグデータの3V（Volume・Velocity・Variety）の定義と、データレイク・データウェアハウスの違いは、毎年のように出題実績がある頻出ポイントです。

実務の観点からも、現代のビジネスはデータ活用なしに成立しないといっても過言ではありません。製造業における品質不良の予測、小売業における需要予測、医療分野での診断支援など、ビッグデータと機械学習の組み合わせは産業全体に広がっています。日本政府もデータ駆動型社会の実現を政策目標に掲げており、データサイエンティストやデータエンジニアの需要は急速に高まっています。この単元では、ビッグデータの基本概念から、データの蓄積・活用の仕組みまでを体系的に理解していきます。

くわしく知ろう

ビッグデータとは、従来のデータベースや分析ツールでは扱いきれないほど大量かつ多様なデータのことを指します。その特徴は「3つのV」で表現されることが多く、Volume（データ量の膨大さ）・Velocity（データ生成・処理のスピード）・Variety（テキスト・画像・音声など多様な形式）の頭文字をとったものです。

ビッグデータを蓄積・管理するための基盤として、データレイクとデータウェアハウスという2つの概念があります。データレイクとは、生のデータをフォーマットや用途を問わず大量に保存しておく「池」のような場所のことです。一方、データウェアハウスは、分析しやすい形式に整理・加工したデータを保管する「倉庫」のような仕組みになっています。

実際のデータ活用では、収集したデータを可視化して傾向を把握するデータ分析や、機械学習（コンピュータにデータからパターンを学ばせる技術）と組み合わせて将来を予測する取り組みが広がっています。データマイニングは、大量データの中から有用なパターンや法則を統計的手法で発掘する技術です。また、AIに大量のデータを学習させる「ディープラーニング（深層学習）」もビッグデータと密接に関連しており、両者は切り離せない存在になっています。

具体例で理解する

たとえば、動画配信サービスが「この利用者には次にどの作品を勧めるか」をリコメンドできるのは、視聴履歴という大量のデータを分析しているからです。また、コンビニが天気や曜日のデータをもとに仕入れ量を調整するのも、ビッグデータ活用の身近な例といえます。生の視聴ログはデータレイクに蓄積し、分析用に整形したものをデータウェアハウスで管理するという二層構造が多くのサービスで採用されています。

試験での出題パターン

【パターン1：3Vの各要素の意味を問う問題】

「ビッグデータの特徴を表す3Vに含まれないものはどれか」という形式で出題されます。Volume・Velocity・Varietyの3つが正解で、「Validity（妥当性・正確性）」「Value（価値）」などが誤答として設定されます。各Vの日本語訳（量・速度・多様性）とセットで暗記しておくと解答スピードが上がります。

【パターン2：データレイクとデータウェアハウスを区別する問題】

「生データをフォーマットを問わず大量保存する基盤はどれか」という形式です。データレイク（生データ・加工前）とデータウェアハウス（整形済み・分析向け）の違いは、「加工済みかどうか」という一点で区別できます。試験では「データウェアハウスの説明として適切なもの」と「データレイクの説明として適切なもの」を入れ替えた誤答選択肢が多いため、どちらの定義も正確に押さえておく必要があります。

よくある間違い・紛らわしいポイント

【データレイクとデータウェアハウスの逆転】

最もよくある誤りは「データレイクは整理されたデータを保管する場所」と覚えてしまうことです。レイク（池）は「何でも流れ込む」というイメージで、形式・用途を問わない生データを保管します。ウェアハウス（倉庫）は「整理されて棚に収まっている」というイメージで、分析しやすい形に加工済みのデータを保管します。問題文に「生のまま」「フォーマット不問」という記述があればデータレイク、「分析向けに整形」「一元管理」とあればデータウェアハウスと判断できます。

【3Vへの4つ目のVの混同】

試験では「Validity（妥当性）」が誤答として登場することがあります。ビッグデータの4V目として「Veracity（真実性・信頼性）」や「Value（価値）」が追加されることがありますが、「Validity」は一般的なビッグデータの特性には含まれません。「V」から始まる単語なら何でもよいわけではないため、3Vの正確な3語を暗記することが重要です。

【機械学習とディープラーニングの包含関係】

機械学習はコンピュータがデータからパターンを学習する技術全般を指します。ディープラーニング（深層学習）はその機械学習の一手法で、脳の神経回路をヒントにした多層ニューラルネットワークを使います。「ディープラーニング⊂機械学習⊂AI」という包含関係を整理しておくと、この分野の問題を広く解くのに役立ちます。

まとめ・試験ポイント

ビッグデータの3V＝Volume（量）・Velocity（速度）・Variety（多様性）
データレイク＝生データをそのまま大量保存する基盤（加工前・フォーマット不問）
データウェアハウス＝分析用に整形・加工済みデータを保管する基盤
データマイニング＝大量データから有用なパターンを統計的に発掘する技術
機械学習⊂AI、ディープラーニング⊂機械学習という包含関係を押さえる
試験では3Vの各要素とデータレイク・データウェアハウスの違いが頻出

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。

入門試験100問に挑戦する