BLOG POST

データ・レークハウスは、次世代のデータ分析基盤となるか

/

データ分析を強化したい企業の間で、データ・ウェアハウスとデータ・レークの良さを組み合わせた新コンセプト:データ・レークハウスが注目されています。アイテ・ノバリカ・グループでは、保険業界顧客に対してデータ・レークハウスに対する関心をヒアリングし、レポート「The Data Lakehouse: How Past Data Architectures Produced a New Paradigm」としてまとめました。ここではその概要をご紹介します。

■ 全社データ分析基盤の歴史
企業のデータ分析基盤の始まりは、1980年代に登場したデータ・ウエアハウスにさかのぼる。
(データ・ウエアハウス)
ビジネス・トランザクションで発生したデータを全社で集約し、データ分析に活用しやすいよう分類し正規化、保持するテクノロジーをデータウエアハウスと称する。この加工には一定の手間が必要だが(時間的遅れも生じる)、一旦データがデータウエアハウスへ収納されれば、効率良く分析/活用できるため、現在でも多くの企業で利用されている。弱点としては、当初の想定になかったデータ利用が必要となったり、新たなデータ項目を追加して分析したい場合、対応に手間取るケースが多いことが挙げられる。

(データレーク)
2010年頃からは、データウエアハウスで扱えないアンストラクチャー・データや音声/画像データ、IoTデータなどをAIや機械学習を使って分析したいとのニーズが生まれ、様々なデータソースからのデータをそのまま保持するデータレークというコンセプトが登場した(リアルタイム・データの取込みも可能)。データレークは、当初ビッグデータの受け皿として注目されたが、10年を経た現時点での評価は、以下のような問題が顕著化しており、データレークの成功事例は少ないと思われる。
・発生したデータをそのまま取り込むため、データの管理が難しい(分類や正規化がなされていないだけでなく、コンプライアンス上の問題を抱えてしまう可能性もある)
・Hadoopなど高度で新しいテクノロジーを使ったデータ基盤が必要となるため、新技術を扱える技術者が必要となる(適切な人材が不足している)
・データ・ボリュームが巨大化し、特にオン・プレミス環境の場合コストが高くなる(データレークが登場した当初は、クラウド利用にはセキュリティ面での懸念があった)

■ データ・レークハウスへの注目
2020年代に入って注目されているのが、データ・レークハウスである。データ・レークハウスは、データ・ウエアハウスの良さはそのままに、アンストラクチャー・データも正規化してデータ・ウエアハウスへ取り込むことでデータ・ガバナンスを確保している。またストリーミング・データにも対応しており、リアルタイムに近い分析が可能となる。

企業は、データを企業経営に生かすためには、アンストラクチャー・データを分析できるデータ基盤が必須と考えており、アイテ・ノバリカ・グループが米国の大手保険会社35社(生保17社/損保18社)に対して実施した調査でも、33社が「絶対に必要(導入済み/導入計画中の合計)」と回答している。

データ・レークハウスのPoC/トライアルを実施している企業の感触は、迅速な意思決定に使えそうだと前向きだ。ただ本格利用を始めると保持するデータ量は相当量に達すると見られ、クラウドを活用してもトータル・コストでメリットが見いだせるのかどうかはまだ不明だ。各社の利用動向に注目しておきたい。