データ統合入門 — ETL・ELT・APIによるデータ連携
導入
「販売データは基幹システムに、顧客情報はCRMに、在庫はECサイトにある――これを一画面で見たい」。そんな課題を解決するのがデータ統合です。異なるシステムに散らばったデータをつなぎ、ひとつの場所に集める技術を見ていきましょう。
くわしく知ろう
データ統合とは、複数のシステムやデータソースに分散しているデータを収集・変換して、分析や活用に適した形に整える一連の作業を指します。企業では基幹システム・ECサイト・外部サービスなど多数のデータソースが存在するため、これらを結びつける仕組みが欠かせません。
その代表的な手法がETL(Extract・Transform・Load)です。まずデータをソースから抽出(Extract)し、必要な形式に変換・加工(Transform)したうえで、分析用のデータウェアハウスに格納(Load)するという流れになっています。事前に変換を済ませるため、格納後のデータはすぐ分析に使えます。
一方、ELT(Extract・Load・Transform)はクラウドデータウェアハウスの普及とともに広まった方式です。抽出したデータをまず格納し、変換は後から行います。大量のデータを素早く格納でき、変換処理をウェアハウス側の高い処理能力で実行できる点が利点です。
リアルタイムなデータ連携にはAPI(Application Programming Interface)が使われます。REST APIと呼ばれる標準的な仕組みを使うと、異なるシステム間でデータをリアルタイムにやり取りできます。
データが流れる一連の経路をデータパイプラインと呼びます。処理のタイミングによって、定期的にまとめて処理するバッチ処理と、データ発生と同時に処理するリアルタイム処理の2種類に分類されます。
具体例
たとえば、夜間に店舗の売上データを基幹システムから抽出し、商品コードを共通フォーマットに変換してからデータウェアハウスに格納するのが、ETLのバッチ処理です。一方、ECサイトで注文が確定した瞬間に在庫管理システムへAPI経由でデータを送り在庫数を更新するのが、リアルタイム処理の典型例です。
まとめ・試験ポイント
- データ統合=分散したデータを収集・変換・格納する作業
- ETL=抽出→変換→格納の順。変換してから格納
- ELT=抽出→格納→変換の順。格納してから変換
- API連携=異なるシステム間でリアルタイムにデータをやり取りする
- バッチ処理=定期まとめ処理、リアルタイム処理=即時処理
- 試験ではETLとELTの処理順序の違いが出題されやすい
学習した内容を試験形式で確認しよう。ITパスポート入門試験100問に挑戦できます。
入門試験100問に挑戦する