プロフェッショナルデジタルスキル（データ・AI）試験

データ基盤とデータパイプライン — データが「流れる」仕組みを設計する

導入

「分析したいのに、データが販売システムや在庫DBや配送ログにバラバラに散らばっていて使えない」——そんな経験はないでしょうか。データを一か所に集め、自動的に整えて届ける「データ基盤」と「データパイプライン」の仕組みを確認していきます。

くわしく知ろう

データ基盤は3層で構成されています。ソース層には業務システムが生成した生データがあり、蓄積層ではデータレイクとDWHが役割を分担します。データレイクは構造化・非構造化を問わず生データを全量蓄積するストレージで、加工前の原石を保管する倉庫のようなものです。一方DWHは分析目的に合わせて整形されたデータを格納し、集計クエリを高速に実行できます。活用層にはデータマートやBIツールが位置し、経営層や現場担当者が直接参照します。

データをソースから蓄積層へ運ぶ仕組みがデータパイプラインです。従来の方式はETL（Extract-Transform-Load）と呼ばれ、ソースからデータを抽出し、中間サーバーで変換・整形した後にDWHへロードします。近年のクラウドDWH環境ではELT（Extract-Load-Transform）が主流になっています。ELTは先にDWHへ生データをロードし、DWH上の処理能力を活かして後から変換を行う方式で、クラウドの高い演算性能を柔軟に活用できる点が利点です。

データパイプラインの実行スケジュールを管理する仕組みをデータオーケストレーションといいます。Apache Airflowはその代表的なOSSで、タスク間の依存関係や実行順序をDAG（有向非巡回グラフ）として定義し、処理を自動的に調整します。

データの流し方にはストリーミング処理とバッチ処理の2種類があります。ストリーミング処理はデータが発生した瞬間にリアルタイムで処理する方式で、在庫の即時反映や不正検知に適しています。バッチ処理は一定期間のデータをまとめて定期的に処理する方式で、夜間の売上集計や月次レポート生成に適しています。代表的なクラウドデータ基盤としてBigQuery（Google）、Redshift（AWS）、Synapse Analytics（Azure）があります。

具体例

EC事業を例に挙げると、受注データ（Salesforce）・在庫DB（PostgreSQL）・配送ログ（S3）をELTでBigQueryにロードし、パイプラインでリアルタイム変換を行い、データマートの在庫分析テーブルをBIダッシュボードへ連携します。在庫残量のアラートにはストリーミング処理を、日次の売上集計にはバッチ処理を使い分けることで、現場の意思決定スピードを高めています。

まとめ・試験ポイント

データ基盤3層＝ソース層（生データ）→蓄積層（データレイク・DWH）→活用層（データマート・BI）
データレイク＝生データを全量蓄積する原石倉庫、DWH＝分析用に整形済みのデータベース
ETL＝変換してからロード、ELT＝先にロードしてDWH上で変換（クラウドDWHに適する）
ストリーミング処理＝リアルタイム処理（在庫反映・不正検知）、バッチ処理＝定期まとめ処理（夜間集計）
クラウドデータ基盤の代表例＝BigQuery（Google）・Redshift（AWS）・Synapse Analytics（Azure）
データオーケストレーション＝パイプラインのスケジュール・依存関係管理（Apache Airflow等）

※本コンテンツは2026年3月公表の改定案 Ver.1.0 に基づく暫定版です

学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。

入門試験100問に挑戦する