ビッグデータとデータ活用 — 大量のデータから価値を引き出す
導入
SNSの投稿、ネットショッピングの履歴、信号機のセンサーデータ――世界中で毎日膨大な量のデータが生まれています。そのデータをうまく活用することで、企業は新たなビジネスチャンスを見つけたり、社会課題の解決に役立てたりできるようになっています。
なぜ重要か
ビッグデータとデータ活用は、ITパスポートのテクノロジ系・ストラテジ系両方で出題される横断テーマです。ビッグデータの3V(Volume・Velocity・Variety)の定義と、データレイク・データウェアハウスの違いは、毎年のように出題実績がある頻出ポイントです。
実務の観点からも、現代のビジネスはデータ活用なしに成立しないといっても過言ではありません。製造業における品質不良の予測、小売業における需要予測、医療分野での診断支援など、ビッグデータと機械学習の組み合わせは産業全体に広がっています。日本政府もデータ駆動型社会の実現を政策目標に掲げており、データサイエンティストやデータエンジニアの需要は急速に高まっています。この単元では、ビッグデータの基本概念から、データの蓄積・活用の仕組みまでを体系的に理解していきます。
くわしく知ろう
ビッグデータとは、従来のデータベースや分析ツールでは扱いきれないほど大量かつ多様なデータのことを指します。その特徴は「3つのV」で表現されることが多く、Volume(データ量の膨大さ)・Velocity(データ生成・処理のスピード)・Variety(テキスト・画像・音声など多様な形式)の頭文字をとったものです。
ビッグデータを蓄積・管理するための基盤として、データレイクとデータウェアハウスという2つの概念があります。データレイクとは、生のデータをフォーマットや用途を問わず大量に保存しておく「池」のような場所のことです。一方、データウェアハウスは、分析しやすい形式に整理・加工したデータを保管する「倉庫」のような仕組みになっています。
実際のデータ活用では、収集したデータを可視化して傾向を把握するデータ分析や、機械学習(コンピュータにデータからパターンを学ばせる技術)と組み合わせて将来を予測する取り組みが広がっています。データマイニングは、大量データの中から有用なパターンや法則を統計的手法で発掘する技術です。また、AIに大量のデータを学習させる「ディープラーニング(深層学習)」もビッグデータと密接に関連しており、両者は切り離せない存在になっています。
具体例で理解する
たとえば、動画配信サービスが「この利用者には次にどの作品を勧めるか」をリコメンドできるのは、視聴履歴という大量のデータを分析しているからです。また、コンビニが天気や曜日のデータをもとに仕入れ量を調整するのも、ビッグデータ活用の身近な例といえます。生の視聴ログはデータレイクに蓄積し、分析用に整形したものをデータウェアハウスで管理するという二層構造が多くのサービスで採用されています。
試験での出題パターン
【パターン1:3Vの各要素の意味を問う問題】
「ビッグデータの特徴を表す3Vに含まれないものはどれか」という形式で出題されます。Volume・Velocity・Varietyの3つが正解で、「Validity(妥当性・正確性)」「Value(価値)」などが誤答として設定されます。各Vの日本語訳(量・速度・多様性)とセットで暗記しておくと解答スピードが上がります。
【パターン2:データレイクとデータウェアハウスを区別する問題】
「生データをフォーマットを問わず大量保存する基盤はどれか」という形式です。データレイク(生データ・加工前)とデータウェアハウス(整形済み・分析向け)の違いは、「加工済みかどうか」という一点で区別できます。試験では「データウェアハウスの説明として適切なもの」と「データレイクの説明として適切なもの」を入れ替えた誤答選択肢が多いため、どちらの定義も正確に押さえておく必要があります。
よくある間違い・紛らわしいポイント
【データレイクとデータウェアハウスの逆転】
最もよくある誤りは「データレイクは整理されたデータを保管する場所」と覚えてしまうことです。レイク(池)は「何でも流れ込む」というイメージで、形式・用途を問わない生データを保管します。ウェアハウス(倉庫)は「整理されて棚に収まっている」というイメージで、分析しやすい形に加工済みのデータを保管します。問題文に「生のまま」「フォーマット不問」という記述があればデータレイク、「分析向けに整形」「一元管理」とあればデータウェアハウスと判断できます。
【3Vへの4つ目のVの混同】
試験では「Validity(妥当性)」が誤答として登場することがあります。ビッグデータの4V目として「Veracity(真実性・信頼性)」や「Value(価値)」が追加されることがありますが、「Validity」は一般的なビッグデータの特性には含まれません。「V」から始まる単語なら何でもよいわけではないため、3Vの正確な3語を暗記することが重要です。
【機械学習とディープラーニングの包含関係】
機械学習はコンピュータがデータからパターンを学習する技術全般を指します。ディープラーニング(深層学習)はその機械学習の一手法で、脳の神経回路をヒントにした多層ニューラルネットワークを使います。「ディープラーニング⊂機械学習⊂AI」という包含関係を整理しておくと、この分野の問題を広く解くのに役立ちます。
まとめ・試験ポイント
- ビッグデータの3V=Volume(量)・Velocity(速度)・Variety(多様性)
- データレイク=生データをそのまま大量保存する基盤(加工前・フォーマット不問)
- データウェアハウス=分析用に整形・加工済みデータを保管する基盤
- データマイニング=大量データから有用なパターンを統計的に発掘する技術
- 機械学習⊂AI、ディープラーニング⊂機械学習という包含関係を押さえる
- 試験では3Vの各要素とデータレイク・データウェアハウスの違いが頻出
学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。
入門試験100問に挑戦する