【第2回】基本から始める Azure Database for PostgreSQL 【PostgreSQL アーキテクチャ 2】

前回、【第1回】基本から始める Azure Database for PostgreSQL 【PostgreSQL アーキテクチャ 1】で、PostgreSQL の主要プロセス、接続確立までの流れなどについてまとめてみました。

今回は、ファイルシステム、メモリアーキテクチャ、追記型アーキテクチャなどの内容について、自分の整理も兼ねて、まとめてみようと思います。

※ PostgreSQL (オンプレミス) は、Azure Database for PostgreSQL フレキシブルサーバーで選択可能なバージョン「14」を使用しています。

PostgreSQL のアーキテクチャ 2

PostgreSQL のアーキテクチャ 2

PostgreSQLのファイルシステム

initdb コマンドを実行することでディスク上に各種データ格納領域を用意し、データファイル、WAL (トランザクションログ)、設定ファイルが作成される。
initdb コマンドで作成される単位は データベースクラスタ と呼ばれる。
データベースクラスタには 複数のデータベース が含まれる。
データベースクラスタとインスタンスは 1:1 の関係となっている。

※ PostgreSQLのデータベースクラスタは、SQL Server で言えばインスタンスみたいなものでしょうか。

■ データベースクラスタ (ファイルの構造)

データベースクラスタを作成後、以下のようなファイル構造でデータファイルなどが作成／配置されます。

SQL Server では、データベース物理ファイル (.mdf/.ndf) の中にすべてのオブジェクト (テーブルなど) が含まれるが、PostgreSQLでは、テーブル毎にデータファイルが作成される。
データページのサイズは、SQL Server と同じく 8KB。
SQL Serverと同様に、１インスタンス (データベースクラスタ) に複数のデータベースを保持する。
base フォルダ配下にデータベースID (OID) フォルダが作成され、その配下にテールファイルが配置される。
テーブルファイルは、データが増えるとファイルノード番号(OID).N (1247, 1247.1, 1247.2 など) のファイルが増えていく。(既定: 1GB 毎にファイルが分割れる。)

data
　　├──base (実データの格納領域)
　　│　　　　├──1
　　│　　　　└──16393
　　├ ・・・
　　├──log (ログ情報の格納領域)
　　│　　　　└──postgresql-2022-07-28_173940.log
　　├──pg_wal (トランザクションログの格納領域)
　　├ ・・・
　　└──postgresql.conf (設定ファイル)

f:id:nobtak:20200728200221p:plain

[その他フォルダ／ファイル]

PG_VERSION : PostgreSQLのバージョン番号を保有するファイル
global : データベースクラスタで共有するテーブルを保有するサブディレクトリ
postgresql.conf : パラメータ設定ファイル (SQL Server で言えばサーバー構成オプションのようなもの)
postmaster.opts : 最後にデータベースを起動した際のコマンドラインオプションを保持するファイル
postmaster.pid : 現在の postmaster プロセス ID、データベースクラスタのデータディレクトリパス情報、postmaster プロセス起動時のタイムスタンプ、リッスンされたポート番号 (TCP) などの情報を保持するファイル

[postgresql.conf]

f:id:nobtak:20210710213005p:plain

※一部抜粋

PostgreSQLのメモリシステム

PostgreSQLのメモリシステムアーキテクチャをまとめてみます。

SQL Server は、一つのプロセス内で多数のスレッドが動作するマルチスレッドアプリケーションとなり、スレッド間でメモリを共有する動作が行われますが、PostgreSQL は複数プロセスが起動する実装になっているので、プロセス間でメモリを共有するアーキテクチャになっているもようです。

f:id:nobtak:20200728202145p:plain

■ グローバルメモリ
PostgreSQLの全プロセスが共有するメモリ

・PostgreSQL (マスタプロセス) により確保／解放される。

・OSの共有メモリ空間内に確保される。

・PostgreSQLの全プロセスで共有するデータ (テーブルデータなど) がキャッシュされる。

■ 各プロセス単位で確保するメモリ

・各プロセスの生成／終了のタイミングで確保／解放される。

・個々の処理 (ソート処理など) などに使用される。

各種メモリオブジェクトについて、SQL Server／Oracle と対比する形でまとめてみようと思います。

f:id:nobtak:20200728212038p:plain

[補足]

SQL Server では、ソート処理、ハッシュ結合処理がメモリの範囲内で行えない場合、代わりに tempdb が使用されることになる。

PostgreSQLのチェックポイント

共有バッファ上の変更されたデータについては、データの更新とは非同期にある程度の間隔でディスクへの書き込みが実施されます。この処理のことをチェックポイントと呼ばれています。

チェックポイントは、特定の間隔、WALファイルの量によって自動的に実施される動作になります。

SQL Server でも同様にチェックポイント処理が実装されており、同様の動作が行われています。

■ チェックポイントに関連するパラメータ

f:id:nobtak:20200728232957p:plain

設定ファイルのパラメータの内容については、以下の URL を参照。

postgresqlco.nf

その他アーキテクチャ

■ WAL

WAL (Write Ahead Log) は、SQL Server で言えばトランザクションログと類似のアーキテクチャであり、クラッシュ時、最後のチェックポイント以降に蓄積されたWALからリカバリ処理を実施するために使用されています。

■ 追記型アーキテクチャ

更新／削除時、変更前のタプル(行)を残したまま、新規に変更後のタプルを追加するというアーキテクチャとなります。

※ SQL Server/Oracle は「更新型アーキテクチャ」で変更対象のデータに対してロックを獲得し、更新するというアーキテクチャが採用されています。

◆メリット

更新時にロックを必要としないため、ロック競合(ブロッキング)が発生しにくい。
更新前、削除対象のタプルが残っているため、ロールバック処理が容易。
UNDOセグメント管理が不要

◆デメリット

不要となったタプルを削除するため、VACUUM処理を実施する必要がある。

f:id:nobtak:20200729001550p:plain

※ 追加型アーキテクチャの場合、上記の更新クエリを実行した場合、更新後の新しいデータがテーブルに追記され、更新前のデータは不要タプルとしてテーブルに保持されます。

■ VACUUM

更新によって不要となったタプルを回収して、再利⽤可能にする操作となり、VACUUMにより、テーブルの肥大化を防ぐことが可能となります。

SQL Server でもゴーストクリーンナップ (Ghost Creanup) 処理があり、削除したデータは一旦ゴーストレコードとして保持され、ゴーストクリーンナップ処理にて VACUUM のような動作 (再利用可能な状態に変更) が行われますが、PostgreSQL では挿入操作 (Insert) でも不要タプルが増えていくため、処理しなければならないデータ量は必然的に増えることが想定されます。

f:id:nobtak:20200729002041p:plain

※ VACCUM を実行後、不要タプルが解放され、再利用可能な状態になる。更新／削除が頻繁に行われるテーブルに対して VACUUMを実行しなければ、不要なタプルが増加し、テーブルが肥大化する要因になります。

[まとめ]

今回は、Azure Database for PostgreSQL を理解するうえで、PostgreSQLのファイルシステム、メモリアーキテクチャ、追記型アーキテクチャなどについてまとめてみました。

次回は、PostgreSQLのユーザーアカウント、バックアップ、テーブルメンテナンスの方法などについて、まとめてみようと思います。

【第3回】基本から始める Azure Database for PostgreSQL 【PostgreSQL アーキテクチャ 3】へ

※ 2022年7月現在

NOBTAの気ままにITブログ

Azure全般 / SQL Serverに関する情報を発信していきます。