企業にとって身近になってきた多種多様で膨大な新しいタイプのデータ、いわゆるビッグデータが、ビジネスに大きな可能性を与えようとしている。ビッグデータを探求することによって貴重な洞察が得られれば、意思決定の最適化や顧客との関係強化といった効果が生まれ、ひいては競争力向上に結実させることが期待できる。

 しかし、ここで大きな壁となるのが、ビッグデータのハンドリングである。実務においては例えば、OracleやSQL Server、DB2などのリレーショナルデータベース、Cloudera、Hortonworks、Amazon Elastic MapReduce(EMR)、MapRといったHadoop系、MongoDB、Cassandra、HBaseを代表とするNoSQLデータベース…様々なデータストア/データソースを対象に適宜データを整理統合して、分析する準備を整えなければならない。この“前処理”に多大な手間や時間がかかってしまうのだ。

 この課題を解決するのがデータ統合を支援するツールやプラットフォームである。最近では、ビッグデータを対象とする分析ツールがデータ統合機能を備えて、データの準備から分析、活用といった一連の過程をフルカバーする動きも活況になっている。この資料では、ビッグデータ分析ツール「Pentaho」を例に、各種データソースへの接続や統合、品質向上といった処理を、コーディングすることなく直感的なマウス操作で対処する具体例を分かりやすく解説している。最新のデータ統合ツールの実力を理解するのに、うってつけの内容だ。