現代の企業においてはデータが価値を持ち、そのデータからの分析によりさらなる利益を生むことはビジネスの常識といえる。圧倒的多数の組織が、分析によって事業活動やプロセスが改善されたという調査報告もある。

 

企業のデータ活用と言えばビッグデータありきで語られることが多く、詳細なデータを取得することは常態化している。ビッグデータは量の多さもさることながら、データの種類、データの発生頻度・更新頻度という要素も含まれる。簡潔に表現するならば“扱いにくいデータ”であると言えるだろう。当然だが分析、判断、アクションの一連の流れが形成されてこそ、データのビジネス価値が見出される。このため、社内に点在し日々増殖するデータを効率的に活用するには、構造化と非構造化に分類し、それぞれデータウェアハウスとデータレイクにビッグデータを収集して個別に管理し、用途によってソースを使い分けるアプローチが採られるケースもある。

 

部署単位で管理されるデータは価値を下げ、データ統合が各所で提唱されているが、その実態はデータ ウェアハウスとデータ レイクの2種での運用、若しくはどちらか一方が選択される。本書は「データウェアハウスとデータレイク融合」と題し、より進化するデータ活用について解説する。データウェアハウスとデータレイクの設計思想の違いを解説し、管理運用コスト、データ量の課題をも明確にする。さらに、実例と共にAI(人工知能)/ML (機械学習)ベースの分析を重視し「レイクハウス」実現へのステップを提言する。データサイエンティストとビジネスユーザーの両翼に拓かれたビッグデータは、BI(ビジネスインテリジェンス)の先を見据えた潮流といえるだろう。「レイクハウス」への理解が進む的確な内容となっており、ご一読を強くおすすめする。