【第1回】基本から始める Azure Databricks 【アーキテクチャ】

Azure 分析基盤サービスとして以下のような様々なサービスが存在します。

Azure Databricks
Microsoft Fabric
Azure Synapse Analytics
HDInsight
Azure Stream Analytics
Azure Data Lake Analytics

今回は、その中の一つである「Azure Databricks」について、自分の整理も兼ねてまとめてみようと思います。

Azure Databricks とは
Azure Databricks の特徴
Azure Databricks のアーキテクチャ
- Azure Databricks コントロールプレーン
- Azure Databricks コンピューティングプレーン
まとめ
参考URL

Azure Databricks とは

Databricks はデータの取り込み (ETL)、分析、AI (生成AI)、機械学習 (Machine Learning)、BI (Business Intelligence) 、データガバナンスなどの機能が統合された分析基盤サービス (レイクハウスプラットホーム) になります。

そして、Azure Databricks は、Azure 基盤に最適化され、Azure サービスと簡易に連携可能なフルマネージドの Databricks サービスとなります。

Azure Databricks の特徴

データ分析に必要となる機能 (ETL、AI、DWH、ML、BI、データガバナンスなど)が一つの共通プラットホームに統合され、構造化、半構造化、非構造化、ストリーミングデータの分析が可能
OSS (Apache Spark, DELTA LAKE, Koalas, Redash など) 製品を SaaS としてラッピングすることで簡易に利用することが可能
※ Apache Spark についてはパフォーマンスチューニングが施されている。
データエンジニア、データアナリスト、データサイエンティストなどの異なる役割をもったチーム間で共同で作業が可能

Azure Databricks のアーキテクチャ

参考URL : Azure Databricks アーキテクチャの概要 - Azure Databricks | Microsoft Learn

Azure Databricks コントロールプレーン

Azure Databricks サービス Web アプリケーション、ノートブック、ジョブスケジュールのメタデータ、クラスタのメタデータを保持している。

Azure Databricks コンピューティングプレーン

Apache Spark、ノートブック、ジョブなどを実行するためのコンピューティングリソース、ストレージを保持している。

※ 但し、Databricks SQL サーバーレスなどについては、Azure Databricks コントロールプレーン側のコンピューティングリソースが使用されるようです。

Azure Databricks ワークスペースを独自のAzure 仮想ネットワークにデプロイすると、該当のAzure 仮想ネットワーク内に Azure Databricks ワークスペースがデプロイされます。

まとめ

今回は、「Azure Databricks」の簡易的なアーキテクチャについてまとめてみました。

「Azure Databricks」では、パフォーマンスチューニングされた Apache Spark を利用できたり、データ分析に必要となる機能 (ETL、AI、DWH、ML、BI、データガバナンスなど)が一つの共通プラットホームに統合され、構造化、半構造化、非構造化、ストリーミングデータの分析が可能なサービスとなっています。

また、OSS がベースになっているため、移植性 (ポータビリティ) という意味でも優位性があり、更にAzure 関連サービスとの柔軟な連携が可能となっている点に優位性があるのではないかと思います。

参考URL

※ 2024年1月時点

NOBTAの気ままにITブログ

Azure全般 / SQL Serverに関する情報を発信していきます。

【第1回】基本から始める Azure Databricks 【アーキテクチャ】

Azure Databricks とは

Azure Databricks の特徴

Azure Databricks のアーキテクチャ

Azure Databricks コントロールプレーン

Azure Databricks コンピューティングプレーン

まとめ

参考URL

Azure Databricks とは

Azure Databricks の特徴

Azure Databricks のアーキテクチャ

Azure Databricks コントロール プレーン

Azure Databricks コンピューティング プレーン

まとめ

参考URL

Azure Databricks コントロールプレーン

Azure Databricks コンピューティングプレーン