【第1回】基本から始める Azure Synapse Analytics 専用 SQL プール【アーキテクチャ】

Azure Synapse Analytics 専用 SQL プール (旧 SQL DW) は、SQL Server をベースにした Azure で使用可能なマネージドのデータウェアハウスサービスであり、PolyBase、Azure Data Factory、BCP などを使用し、ビックデータをデータベースに取り込んだ後、分散クエリエンジンの機能により、ペタバイト規模のデータを高速に分析することが可能なサービスです。

今回は、Azure Synapse Analytics 専用 SQL プール (旧 SQL DW) のアーキテクチャについて、まとめてみようと思います。

Azure Synapse Analytics 専用 SQL プールアーキテクチャ

Azure Synapse Analytics 専用 SQL プールアーキテクチャ

f:id:nobtak:20201229013020p:plain

基本構成

Azure Synapse Analytics 専用 SQL プールは、「コントロールノード」、「コンピュートノード」、「ディストリビューション」、「データ移動サービス (DMS)」、「Azure ストレージ」などのノード、コンポーネントによって構成されています。

コントロールノード (制御ノード)

クライアント (アプリケーション) との接続を管理するノード。分散クエリエンジンも動作しており、クライアントから受信したクエリを並列クエリに変換し、各コンピュートノード (計算ノード) で動作するディストリビューションへの展開、同時実行スロット制御も本ノードで行われる。

コンピュートノード (計算ノード)

計算能力を提供するノード。クエリを実行するディストリビューションを保持している。

コンピュートノード数は、専用 SQL プールのサービスレベル (Data Warehouse ユニット (DWU)) により、1 から 60 の範囲で設定される。

例えば、サービスレベル「DW100c」の場合、コンピュートノード数は「1」、「DW2000c」の場合、コンピュートノード数は「4」に設定される。

その他のサービスレベルについては、以下の URL を参照。

ディストリビューション

並列クエリ実行する基本的な単位であり、各 Azure Synapse Analytics 専用 SQL プール毎に「60」存在し、各コンピュートノード上に分散されて動作している。

例えば、サービスレベル「DW100c」の場合、コンピュートノード数は「1」であるため、1つのコンピュートノードに 60個のディストリビューションが配置され、「DW2000c」の場合、コンピュートノード数は「4」であるため、各コンピュートノードには、15個(60/コンピュートノード数) のディストリビューションが配置される。

f:id:nobtak:20201229042518p:plain

データ移動サービス (DMS)

コンピュートノード間のデータ移動のためのデータ転送テクノロジであり、各コンピュートノードでクエリ処理を完結できず、他のコンピュートノードからデータを取得する必要がある場合などに使用される。

Azure ストレージ

インポートしたデータが保存されたデータベース物理ファイル (.mdf) が保存されている。データをどのように分散させるかについては、テーブル作成時に「DISTRIBUTION」句で指定することが可能であり、「HASH (ハッシュ)」、「ROUND_ROBIN (ラウンドロビン)」、「REPLICATE (レプリケート)」から選択可能となっている。

例：ハッシュ分散テーブルを作成する場合

CREATE TABLE dspTable
(
    id int NOT NULL,
    name nvarchar(50)
)
WITH
(
    DISTRIBUTION = HASH (id),
    CLUSTERED COLUMNSTORE INDEX
);

クエリ実行までの流れ

1) クライアント (アプリケーション) からコントロールノードへの接続が確立される。

2) クライアントからのクエリ要求をコントロールノードが受領する。

3) コントロールノード上の分散クエリエンジンで構文解析が行われ、並列クエリに変換し、各コンピュートノード (計算ノード) で動作するディストリビューションへ展開する。

4) コンピュートノード上のディストリビューションで展開されたクエリを実行する。

4-1) 各コンピュートノードのみでクエリを完結できる場合

-> 展開されたクエリがそのまま実行される。

4-2) 各コンピュートノードのみでクエリを完結できない場合

-> データ移動サービス (DMS) により、最もデータ移動が少なくなるコンピュートノード上にデータを集約する動作が行われ、データの集約が完了後、クエリが実行される。

5) 各コンピュートノードの実行結果がコントロールノードに返され、コントロールノードからクライアントに対して結果セットが返される。

[パターン例]

1) 各コンピュートノードでクエリを完結できる場合

f:id:nobtak:20201229053024p:plain

2) 各コンピュートノードの結果セットを集計する必要がある場合

f:id:nobtak:20201229053534p:plain

3) 各コンピュートノードでクエリを完結できず、他のコンピュートノード上のデータが必要な場合

f:id:nobtak:20201229054744p:plain

まとめ

今回は、Azure Synapse Analytics 専用 SQL pool (旧 SQL DW) のアーキテクチャについて、まとめてみました。

次回以降で「テーブルの種類」、「リソースクラス」、「Azure Synapse Analytics 専用 SQL poolのベストプラクティス」について、まとめてみようと思います。

NOBTAの気ままにITブログ

Azure全般 / SQL Serverに関する情報を発信していきます。

【第1回】基本から始める Azure Synapse Analytics 専用 SQL プール【アーキテクチャ】