ETLとELTの違いは何ですか？

ETL（Extract→Transform→Load）は、データを抽出してから変換処理を加え、最終的な形でデータウェアハウスに格納します。ELT（Extract→Load→Transform）は、先にデータウェアハウスやデータレイクにそのまま格納してから、DWH内部の演算力を使って変換します。BigQueryやSnowflakeのような高性能クラウドDWHの普及によりELTが主流になりつつあります。

DataSpiderはどのような場面で使われますか？

DataSpider Servista（株式会社セゾンテクノロジー）は、SAPやOracleなどの基幹システム（ERP）、CRM、EDI、データベース間のデータ連携に広く使われています。コーディング不要のGUIベースの設計が特徴で、国内の大企業・官公庁での採用実績が多く、データ統合に関する試験問題でも言及されます。

バッチ処理とストリーム処理はどう使い分けますか？

バッチ処理は一定周期でまとめてデータを処理します（例：夜間の売上集計）。リアルタイム性が求められない場合はコストが低く安定しています。ストリーム処理はイベント発生のたびにデータをリアルタイムで処理します（例：不正検知・センサーデータ分析）。レイテンシ要件が1秒以内ならストリーム、1分以上許容できるならバッチ、その中間はマイクロバッチという判断が基本です。

データマネジメント試験（仮称）でデータパイプラインはどのように出題されますか？

IPAが2027年度開始予定のデータマネジメント試験（仮称）では、DMBOKの「データ統合・相互運用性」領域からETL/ELT・データ変換・データ品質・冪等性・スキーマ管理に関する問題が想定されます。プロフェッショナルデジタルスキル（データ・AI）試験（仮称）では、データエンジニアリング領域としてバッチ・ストリーム処理の設計判断も問われる見込みです。

データレイク・データウェアハウス・データレイクハウスの違いは？

データウェアハウス（DWH）は構造化データを分析向けに最適化したストレージです（BigQuery・Snowflake等）。データレイクは生データ（構造化・非構造化問わず）をそのまま格納する低コストなストレージです（S3・GCS等）。データレイクハウスはその両方の特性を統合したもので、DeltaLakeやApache Icebergが代表的な実装です。試験では「どのデータをどこに格納するか」の設計判断が問われます。

データパイプライン設計入門｜ETL/ELTの違い・主要ツール・試験頻出パターン【2026年版】

データパイプラインとは

データパイプラインとは、データをある場所から別の場所へ移動・変換・格納する一連の処理を自動化した仕組みです。業務システム・ログ・APIなどの多様なデータソースから、分析用データウェアハウスやデータレイクへデータを届けるまでの流れ全体を指します。

「パイプライン」という名称は、データが水道管の中を流れるように処理ステップを順番に通過していくイメージに由来します。各ステップは独立したコンポーネントとして実装され、障害時の再実行やスケールアウトが容易な設計が理想とされます。

データパイプラインが重要視される背景には、データ活用の高度化があります。企業が保有するデータは業務システム・IoTセンサー・ウェブログ・SNS連携など多様な形式で蓄積されており、これらを分析可能な形に整えて届けるまでの工程が複雑化しています。データパイプラインは「データエンジニアリング」の中核領域として、DMBOK2（データマネジメント知識体系）でも「データ統合・相互運用性（Data Integration & Interoperability）」として独立した章を持ちます。

ETL・ELT・リバースETLの違いと使い分け

データパイプラインを語る上で最初に理解すべき概念が、ETL・ELT・リバースETLの3つのパターンです。それぞれの処理順序と適している場面が異なります。

ETL（Extract・Transform・Load）

ETLは「抽出→変換→格納」の順で処理します。データソースからデータを取り出し（Extract）、中間の変換エンジン上でクレンジング・加工・統合（Transform）してから、最終的な形でデータウェアハウスに格納（Load）します。

ETLが適している場面は、変換処理が複雑でデータウェアハウスに格納する前に品質を確保したい場合、またはDWH側の演算コストを抑えたい場合です。DataSpider・Talend・IBM DataStageなど伝統的なETLツールはこのパターンで設計されています。

ELT（Extract・Load・Transform）

ELTは「抽出→格納→変換」の順で処理します。データをまず生のままDWHやデータレイクに格納（Load）してから、DWH内部の演算能力を活用して変換（Transform）します。

BigQuery・Snowflake・Redshiftのような高性能クラウドDWHの普及により、変換をDWH側に任せるELTが近年の主流になっています。変換ロジックをSQLで記述するdbt（data build tool）は、ELTパターンの「Transform」フェーズを担うツールとして急速に普及しています。Fivetranは「Extract→Load」部分を自動化したSaaSで、dbtと組み合わせてELTパイプラインを構成することが多いです。

リバースETL（Reverse ETL）

リバースETLは、DWHや分析基盤に蓄積されたデータを、CRM・MAツール・広告プラットフォームなど業務システムに逆向きに送り返すパターンです。分析結果をそのままSalesforceの顧客レコードに書き戻したり、分析セグメントをFacebook広告に連携したりする用途が代表例です。Census・Hightouch・RudderStackがリバースETLの主要ツールです。

ETL・ELT・リバースETLの処理パターン比較
パターン	処理順	変換の場所	主な用途
ETL	Extract → Transform → Load	中間エンジン（ETLサーバー）	基幹系連携・厳密な品質管理が必要な場面
ELT	Extract → Load → Transform	DWH内（SQL・Sparkなど）	クラウドDWH活用・大量データ・柔軟な変換
リバースETL	DWH → Transform → 業務システム	リバースETLツール	分析結果をCRM・広告・MAに反映

バッチ処理とストリーム処理の使い分け

データをどのタイミングで処理するかによって、バッチ処理・ストリーム処理・マイクロバッチの3つのモデルがあります。設計時にどれを選ぶかは、レイテンシ要件とコストのトレードオフで決まります。

バッチ処理

バッチ処理は、一定の時間間隔（夜間・毎時・毎日）でデータをまとめて処理するモデルです。売上日次集計・月次レポート生成・大量データの定期変換など、リアルタイム性が求められない処理に適しています。Apache Spark・AWS Glue・Google Cloud Dataproc・Airflowによるジョブスケジューリングが代表例です。

バッチ処理の利点は、処理コストが低く安定している点と、複雑なジョイン処理やウィンドウ集計が実装しやすい点です。欠点はデータの鮮度に遅延が生じる点で、最短でも数分〜数時間の遅れが発生します。

ストリーム処理

ストリーム処理は、データが発生するたびにリアルタイムで処理するモデルです。クレジットカードの不正検知・IoTセンサーの異常検知・ユーザー行動のリアルタイム分析など、低レイテンシが求められる場面で使われます。Apache Kafka・Apache Flink・Google Cloud Dataflow（Apache Beamベース）・Amazon Kinesisが代表的なプラットフォームです。

ストリーム処理では「Exactly-once（厳密に1回）」の処理保証が重要な課題になります。ネットワーク障害による再送や重複処理を防ぐために、チェックポイントとトランザクション管理を組み合わせます。

マイクロバッチ

マイクロバッチは、数秒〜数分単位の短いバッチ間隔で処理するアプローチで、バッチとストリームの中間に位置します。Apache Spark Structured Streaming（旧Spark Streaming）が代表例で、完全なストリーム処理よりも実装が容易でありながら、分単位のリアルタイム性を実現できます。

バッチ・マイクロバッチ・ストリーム処理モデルの比較
処理モデル	レイテンシ目安	適した用途	代表ツール
バッチ	数分〜数時間	日次集計・月次レポート	Spark・Airflow・Glue
マイクロバッチ	数秒〜数分	準リアルタイム分析	Spark Streaming・Flink
ストリーム	ミリ秒〜秒	不正検知・IoT・行動分析	Kafka・Flink・Dataflow・Kinesis

主要データパイプラインツールの比較

データパイプラインを構築するツールは、オープンソース・クラウドマネージド・商用パッケージに大別されます。以下に代表的なツールを整理します。

主要データパイプラインツール比較
ツール名	種別	デプロイ形態	主な用途	試験との関連
DataSpider Servista	有償	オンプレ／クラウド	業務システム連携（ERP・CRM・EDI）	国内試験での出題頻度が高い
Apache Airflow	OSS	セルフホスト／マネージド	バッチワークフロー管理（DAG定義）	データエンジニアリング領域で頻出
Fivetran	有償SaaS	クラウドネイティブ	ELT（SaaS→DWHの自動同期）	ELT概念の具体例として参照される
AWS Glue	有償PaaS	AWS	サーバーレスETL・カタログ管理	クラウドETLの代表例
Google Cloud Dataflow	有償PaaS	GCP	バッチ・ストリーム統合処理（Apache Beam）	ストリーム処理の問題で言及される
Talend Open Studio	OSS（有償版あり）	オンプレ／クラウド	ETL設計・データ品質管理	DMBOKのデータ統合領域と対応
dbt（data build tool）	OSS（有償版あり）	クラウド中心	ELT変換層（SQLによるモデリング）	「Transform in DWH」概念の具体例

DataSpider（国内試験での重要度が高いツール）

DataSpider Servistaは、株式会社セゾンテクノロジー（旧アプレッソ）が開発・提供する国産ETLミドルウェアです。GUIベースのフロー設計でコーディング不要のデータ連携が可能で、SAP・Oracle・Salesforce・各種DBへの豊富なアダプタを持ちます。金融・製造・官公庁など国内大企業での採用実績が多く、データ統合に関する国内試験の問題文に登場することがあります。

Apache Airflow（ワークフロー管理の標準）

Airflowは、Airbnbが開発しApache Software Foundationに移管されたOSSのワークフロー管理ツールです。DAG（有向非巡回グラフ）でジョブの依存関係を定義し、Pythonコードでパイプライン全体を記述します。AWSのAmazon MWAA・GoogleのCloud Composerとしてマネージドサービスが提供されており、データエンジニアの標準ツールとして広く普及しています。

dbt + Fivetranの組み合わせ

Fivetranは180以上のSaaSコネクタを持つELTのExtract→Load専用SaaSで、Salesforce・Stripe・PostgreSQLなどからDWHへのデータ同期を自動化します。dbtは変換（Transform）フェーズをSQLで宣言的に記述するツールで、データリネージの可視化やテスト機能も備えます。両者を組み合わせた「Fivetran + dbt」はModern Data Stackの代表的な構成として知られています。

設計時に押さえるべき4つの重要ポイント

データパイプラインを本番運用に耐える形で設計するには、機能要件（何を運ぶか）に加えて非機能要件（どのように運ぶか）への対応が不可欠です。以下の4点は試験でも出題される頻度が高い設計原則です。

スキーマ進化（Schema Evolution）への対応

データソース側のスキーマ変更（カラム追加・型変更・削除）に対してパイプラインが壊れないよう設計する考え方。後方互換・前方互換の区別とともに、スキーマレジストリ（Apache Confluent等）の役割を理解しておくと試験でも実務でも有利です。

キーワード: スキーマレジストリ、後方互換（Backward Compatible）、Avro / Parquet

冪等性（Idempotency）の保証

同じデータを2回投入しても結果が変わらない設計。ネットワーク障害や再実行時の二重挿入を防ぐためにUPSERT（INSERT OR REPLACE）やチェックポイントを活用します。冪等性はデータパイプラインの信頼性設計の核心であり、試験でも設計原則として問われます。

キーワード: UPSERT、Exactly-once、At-least-once、チェックポイント

パイプライン監視とアラート

ジョブの失敗検知、データ遅延アラート、行数・件数の期待値チェック（Data Quality Check）を組み込む。AirflowのSLAミス通知やGreat Expectationsのようなデータ品質フレームワークが代表例です。監視設計はデータスチュワードの責務領域と重なります。

キーワード: Data Quality Check、SLA、Great Expectations、データ系譜（Data Lineage）

スケーラビリティとパーティショニング

データ量の増大に対して水平スケール（ノード追加）できる設計。Sparkの分散処理、BigQueryのパーティション分割テーブル、S3のプレフィックス設計などが典型例。パーティショニングキーの選択を誤るとホットスポット問題が生じます。

キーワード: 水平スケール、パーティション、シャーディング、ホットスポット

データマネジメント試験（仮称）・プロフェッショナルデジタルスキル試験（仮称）での頻出ポイント

IPAが2027年度開始予定のデータマネジメント試験（仮称）では、DMBOK2の「データ統合・相互運用性」領域が出題範囲の重要部分を占めます。プロフェッショナルデジタルスキル（データ・AI）試験（仮称）では、「データエンジニアリング」科目としてパイプライン設計の知識が問われる見込みです。

以下の概念は特に重点的に確認しておくことを推奨します。

ETL / ELT の違いと使い分け:どちらのパターンがどのような状況に適しているか。DWHの演算能力が高い場合はELTが有利という判断基準を説明できること。
データ変換の種類:クレンジング（欠損値処理・型変換・名寄せ）・エンリッチメント（外部データとのジョイン）・集約（グループ集計）の区別。
冪等性とExactly-once:同じデータを複数回処理しても副作用が発生しない設計の必要性と実現手段（UPSERT・チェックポイント）。
スキーマ管理:データソース変更への対応策。スキーマレジストリによるバージョン管理と後方互換性の維持。
バッチ vs ストリームの設計判断:レイテンシ要件に基づく選択基準。不正検知・センサー分析はストリーム、日次レポートはバッチという典型パターン。
データ系譜（Data Lineage）:データがどのソースからどの変換を経て最終テーブルに至ったかを追跡する能力。監査・品質管理の基盤となる概念。

試験対策として、DMBOK2の第8章「データ統合・相互運用性」を参照することを推奨します。また、IPAが公表している出題範囲改定案では「データエンジニアリング」領域に「データパイプライン構築・管理」が明示されています。

データマネジメント試験の出題範囲を確認する

PassDojoでは、データマネジメント試験の出題範囲予測と学習ロードマップを公開しています。パイプライン設計を含む「データ統合・相互運用性」領域の学習に活用してください。

データマネジメント試験の出題範囲予測を見るデータマネジメント入門学習へ

よくある質問（FAQ）

ETLとELTはどちらが優れていますか？

どちらが優れているかは一概には言えず、ユースケースによって最適解が異なります。クラウドDWH（BigQuery・Snowflakeなど）を使う場合はELTが有利です。変換処理が複雑でDWHへの格納前に厳密な品質管理が必要な場合、またはDWHの演算コストを抑えたい場合はETLが適しています。

DataSpiderとAirflowの違いは何ですか？

DataSpider Servistaは主にデータ転送・連携に特化したETLミドルウェアで、GUIで設定できるコーディング不要のツールです。Airflowは主にパイプライン全体のスケジューリングと依存関係管理（ワークフローオーケストレーション）を担うツールで、Pythonで記述します。Airflow単体ではデータ転送処理は書かず、Spark・Glue・DBなどの実処理を呼び出す役割を果たします。

データパイプラインの監視で重要な指標は何ですか？

代表的な監視指標は、(1)ジョブ完了/失敗ステータス、(2)処理時間（SLA遵守率）、(3)処理件数の期待値との乖離（データ品質チェック）、(4)エラーレコード数・エラー率、(5)データ遅延（最新データの鮮度）の5つです。Great ExpectationsやMonteCarlo DataがData Observabilityツールとして活用されています。

個人がデータパイプラインを学ぶにはどうすれば良いですか？

入門段階ではAirflowをローカルにDockerで起動してDAGを作成する体験が効果的です。クラウドに触れる場合はGoogleのBigQuery SandboxとGoogle Cloud Composerの無料枠を活用できます。dbtは「dbt Cloud」の無料プランで実際のELT変換を体験できます。理論面ではDMBOK2の第8章「データ統合・相互運用性」の精読を推奨します。

データパイプライン設計入門
ETL/ELTの違い・主要ツール・試験頻出パターン【2026年版】