プロデジ(データ・AI)想定問題集 トップへ
科目A: データエンジニアリング(問29〜35)

35

複数ソースシステムから大量データを収集する DWH 構築プロジェクトで、オーケストレーションツール上のジョブが夜間に一部失敗し、翌朝に手動で再実行したところデータの重複行が発生した。データエンジニアリングの観点で最も優先して見直すべき設計ポイントはどれか。

ADWHの色やアイコンなどダッシュボードのデザイン仕様
BBIツールで表示するグラフ種類の選定
Cジョブの冪等性設計(主キーや更新キーに基づく重複排除、upsert 設計、再実行時の差分取り込み方式)と失敗時のリトライ戦略
Dデータ分析担当者の座席配置

解説

夜間ジョブ失敗→朝手動再実行→重複データ発生という事象は、パイプラインに冪等性が確保されていないことが根本原因です。主キー・更新キーに基づく upsert 設計、再実行時の差分取り込み、リトライ戦略を見直すことで再発を防げます。ダッシュボード意匠や座席配置は本質的な原因ではありません。