ビッグデータを高速・安全に管理　“Databricks”を用いたデータレイクハウスの基礎

RDB、データウェアハウス、データレイクと、大量のデータを保存するソリューションは発展し続けてきました。クラウドサービスの成長とともに登場したデータレイクは、加工前の「生データ」を含めたさまざまなデータを一元的に保持する、ビッグデータ時代を象徴しています。

データレイクにデータウェアハウスのよさを組み合わせた、データレイクハウス。さらにAI・BIを組み合わせて、データを保持・加工しながら使えるようにしたのがDatabricksであり、大量のデータを扱えるだけでなく、安全に信頼性を担保しながら使える進化を成し遂げました。

『Developer eXperience Day 2024』（主催：日本CTO協会）では、Databricksの基礎となるデータレイクハウスの基礎を学び、高速・安全・確実にデータを加工する方法について、解説とデモを交え、講演されました。データブリックス･ジャパン株式会社の北村匡彦氏らが登壇した、「データレイクハウスの基礎とDatabricks実践デモ」をレポートします。

スピーカー紹介
北村匡彦

データブリックス･ジャパン株式会社
フィールドエンジニアリング本部アカウントSA部部長

大手通信会社で大容量映像伝送技術やビッグデータ分散処理の研究を担当。カリフォルニア大学サンディエゴ校で客員研究員としてVR・リモートコラボレーションの共同研究。その後AkamAIでCDN実装、ウェブパフォーマンス・ネットワークセキュリティ分析サービスのPSを担当。Databricks JapanにてSAのチームマネージャー、Databricks導入支援に従事する。

桑野章弘

データブリックス･ジャパン株式会社
ソリューションアーキテクト

インフラエンジニアからクラウド関連のソリューションアーキテクトを経て、Databricksのソリューションアーキテクトに。お客様のデータやAIの課題を解決したいと思っている。休日は子どもと一緒に「Pokémon GO」で街をさまよったり、ポケカでボロ負けしたり。

張含露

データブリックス･ジャパン株式会社
ソリューションアーキテクト

2011年来日。AIベンチャーでデータサイエンティストを経て、Databricksにソリューションアーキテクトとして入社。

Databricksの基礎

北村：私はDatabricksのフィールドエンジニアリングとして、チームのマネージャー、部長をしております。桑野はソリューションアーキテクトとして、スライドベースで説明します。張もソリューションアーキテクトですが、Databricksの使い方に関するデモをしていただきます。

さっそく、Databricksの基礎を説明します。

桑野：データブリックスはデータ＆AIカンパニーです。データレイクハウスの発明者と書いてあるんですけども、Delta Lake やMLflow・Apache Sparkなど、データ分析や機械学習するオープンソースソフトウェアをリリースしていた人々が作った会社です。

多くの会社で、データレイクを作ってどうするか、機械学習をどうするか、ストリーミングで短時間で来るデータをどう処理するか、その運用や構築は大変だと思います。

具体的には、そのデータとAIがサイロ化してしまっていろいろなところに潜在してしまったり、プライバシーや管理面で課題が出てきています。また、構築や運用は、高い技術を持っている人でないとできないとされてしまい、誰も触れない状態になっています。

データレイクハウスというアーキテクチャー

桑野：これらの課題を解決するために、データブリックスから、レイクハウスというアーキテクチャーを作りました。データレイクハウスと称しており、すべてのデータに対するオープンでかつ統合された基盤です。

データレイクハウスは4層になっています。下層から確認してみます。

まず1つは、S3やGCS、Azure Data Lake Storageなどにある生データを、データレイクハウスに入れることを実現します。

普通にデータレイクですが、それに対してデルタレイクという形で信頼できるデータストレージの層を作ります。そうすることによって、ガバナンスやセキュリティのような管理を持つことができます。

その次に、統合セキュリティ・ガバナンス・カタログを実現します。

最上層で、データサイエンス・データ分析・オーケストレーション・データウェアハウスを実現するようにします。

こういったアーキテクチャーを、データレイクハウスと呼んでいます。

技術スタックでは、S3の上にデルタレイクでデータを管理します。これはトランザクションログを一緒に持つことによって、スキーマ管理をS3上に置きながら実現できます。その上にあるUnity Catalogで、どのようなデータやテーブルがあるのか、それに誰がアクセスできるかといった管理ができます。

その上で、Mosaic AIやDelta Live Tables、Workflows、DWHのDatabricks SQLを実現しています。

最近はデータレイクハウスに加えて、生成AIを合わせてデータインテリジェンスプラットフォームと言い始めた流れになりました。

3層目と4層目の間にData Intelligence Engineを挟みました。さまざまなAIを使って、データの意味合いなどを判断し、最適化することを実現しています。たとえばUnity Catalogでは、専門用語を使って自然言語でデータにアクセスしたり、テーブルがどういうテーブルかをAIで理解できます。Databricks SQLがデータの最適化をしたり、最適なパフォーマンスを出せるデータの持ち方を判断できます。

データインテリジェンスプラットフォームについて、データ中心のAIと説明しています。そこでは生成AIも実現しています。たとえば、データプライバシーやコントロールを維持しつつ、カスタムモデルをどうつくるか、できたモデルをどのようにサービングするか。検索拡張生成と呼ばれるRAGをどうつくるか。

エンドツーエンドのAIとして、どう最適化するかというML Ops、それを簡単にするAutoML、MLが正しく動いているか確認するモニタリングをはじめ、そのモデル自体にガバナンスが効いています。それらすべてをサービスとして持っているところが、Databricksのデータインテリジェンスプラットフォームとして説明している部分です。

データやAIの民主化をするためにはどうするかについて、AI/BI Genieというサービスが新しく出てきています。皆さんが自然言語で「売り上げ目標をグラフで表してください」と問い合わせるだけで、月別の売り上げをグラフで出力することもできるようになりました。

データインテリジェントプラットフォームは、データとAIを民主化できるプラットフォームになっています。すべての人がアクセス可能で簡単に操作でき、自然言語でアクセス可能です。その中で独自のプライベートAIや独自のLLMを作ったり、もちろん今までの機械学習もできますし、カスタムAIモデルを簡単に構築できるプラットフォームになっています。

Deep Dive

次にUnity Catalogについて話していきたいと思います。データインテリジェンスプラットフォームの中でUnity Catalogは、コンテキスト（文脈）を考慮したり、テーブルの説明自動記述したり、ガバナンスをすべてのデータタイプに対して持つことができます。

ガバナンスをどう持つか、どう確保するかはとても大変です。ガバナンスはインテリジェンスなしでは複雑でして。たとえば目的のデータセットやモデル、ノートブック、ダッシュボードをどうやって見つけるかという話になったときに、一つひとつ検索したり手動で探していくのは非常に大変です。データやMLモデルの正しさも、全部見つけていくのは非常に大変です。これに対して、規制をどう理解して、正しいデータを見つけていくかが課題として残ります。

ここに対しての答えの1つはUnity Catalogで、AIを活用したガバナンス管理もできます。この中にあるデータがどういうデータなのかを、例えば意味を理解してコメントをつけていけます。

データの中のカラムに対しても、中にあるデータを見て、データについてのコメントをつけるようAIで実現しています。こうした機能を効率よく使うことで、組織の中で正しいデータが常に存在し、新しいデータに正しくアクセスできるガバナンスを実現しています。

もう1つはDelta Lakeです。エンジニアはデータ管理をする必要がありますが、データが綺麗な形になっているかの確認・調整やパーティションを1個1個切ることなどを怠ると、性能やコストの問題が出ます。また、そうした作業のスキルを持っている人が必要になるという課題もあります。Databricksでは、デルタレイクの中で簡単かつ自動化されたデータ管理を実現しています。ワークロードに合わせてデータを最適化し、何もしなくてもデータが綺麗な形でパフォーマンスが出る形で持てるように、AIなどで確認・管理しています。

さらに最適化して性能を確保できることでメンテナンスコストも安くなり、パフォーマンスも向上します。パフォーマンスに必要な要素を簡単にAIで実現できます。

次に、データウェアハウスです。データウェアハウスはSQLを綺麗に書けないと大変です。SQLのパフォーマンスを出すことが難しい、拡張性、手作業でSQLを書いていると運用コストが高いなどの課題があります。

AIを活用したデータウェアハウスでは、Text-to-SQLというAIアシスタントの機能があります。このデータにこのようにアクセスしてくださいと自然言語的に指示をすると、意味を理解した上で、綺麗なSQLが書き出されます。手頃な料金でユーザーのデータ、リネージ、依存関係を理解した上で高速にSQLを作成します。さらに自動チューニングと予測IOによる最適化も行います。

次はWorkflowsです。オーケストレーションは、その複数のジョブを束ねて綺麗にしていくのですが、うまくできないと非常にごちゃごちゃになってしまいます。ファイルを作ってしまうと、そのコピーがいろいろなところに入って、どれが何だか分からなくなり、TCO (Total Cost of Ownership) が増加することもあります。

オーケストレーションがインテリジェンス性を持つと、クラスを立ち上げてすぐに処理できたり、AIアシスタントがデバッグもしてくれます。何か処理がおかしい、遅いなどがあったときにAIに対して問い合わせると、直して返してくれます。そういった自動チェックやポイントリカバリもできます。モニタリングとアラートもAIを使っています。

次はDelta Live Tablesです。オーケストレーションの中のETLやパイプラインの構築は大変です。どういうデータがあるか理解した上で修正する作業をしなければなりません。それを、探索して直す繰り返しを行うのがETLです。

これに対しても、Delta Live Tablesという機能があり、宣言的にデータのETLを構築できます。

例えば、「年齢のデータで0歳未満はないので、0歳以上100歳以下がデータとしてあるべきです」と宣言すると、そういうデータだけを取って次のパイプラインを直してくれます。ひとつひとつデータを調べて直して戻すのではなく、「こういうデータでお願いします」と指示するだけでいい形になるので、ETLパイプラインがシンプルになります。最近よく使われているサービスです。

最後に、データ中心型のAIです。生成AIアプリケーションの構築には、AI専門家が必要、データの問題、プラットフォーム自体に生成AIの機能が必要という課題があります。ガバナンスの実現も大変です。

Databricksでは、AIアプリケーションのガバナンスの確保や、ML Opsを実現するための部品も揃っているので、簡単に実現できます。

ベクトル検索・フューチャーストア・RAG・MLflowなどの特徴、さらに特徴量管理も揃っているので、他のサービスを組み合わせる必要がないのがDatabricksの強みです。

Databricksのデモ

桑野氏によるDatabricks・データレイクハウスの説明が終わった後、3つのデモが行われました。張氏のデモが行われた後に参加者から質問があり、主に北村氏が回答する流れで進行しました。

データの取り込みからETLへのデモ

最初に行われたデモは、多くのデータソースからDatabricksがデータを取り込んだ、生データからビジネスデータへ変換していく流れのデモでした。

Amazon S3のデータを読み込んでテーブルの結合を行い、新たに作られたデータがDatabricksに保存され、参照する一連の操作を実演。1つのテーブルに変更を行った際に上位・下位のテーブルにどのような影響が出るかという、依存関係についてもわかりやすく示されました。

データウェアハウスとSQL周りの機能のデモ

2つ目のデモは、Databricksの高機能・低コストでさまざまなデータウェアハウス機能を使用するデモでした。

最初のデモで作成したテーブルに対して操作する、ダッシュボードで内容を調査するという紹介。同一画面内で手軽なSQL文の生成・操作を行い、結果を確認したり、抽出したデータをグラフなどで簡単に可視化したりする工程を見て取ることができました。

また、これらの機能はローコードで利用できます。そして、「平均値を出してください」などと自然言語で指示を書き、クエリーと結果が表示される、自然言語に対応できるSQLの機能デモも行われました。

生成AI周りのデモ

企業が生成AIを使って会話する際には、自社のデータを元にした回答をしてくれるAIにしたいものです。Databricksでも、自身が保有するデータを元に応答するチャットボットを作れます。

カード発行の手続きを行う処理の一環で、会員のランクに応じてサービス・待遇の異なるケースがある際、チャットボットがテーブルに保存された特典の情報などを元に応答文を作成するデモが示されました。

ここでも「シルバー会員はラウンジが使えるか」などの質問に対して、対応するようすが公開されました。

取材後記：ビッグデータの取り扱いに光が差す

大規模データを安全に、効率よく取り扱う際、さまざまなノウハウや技術力、コストが必要になってきます。

今回の製品説明とデモを通して、Databricksのような製品を使うことで導入までのハードルが低くなり、BIとして活用するまでのハードルもグッと下がったことが感じられました。

Databricksはすでに何社もの国内企業に導入されているソリューションですが、これからビッグデータの対応を検討している企業にとっては、一条の光が差したことが伝わる講演だったのではないでしょうか。

（取材／文：奥野大児）

― presented by paiza