ANALYZE — データベースに関する統計を収集する
ANALYZE [ VERBOSE ] [table_name
[ (column_name
[, ...] ) ] ]
ANALYZE
はデータベース内のテーブルの内容に関する統計情報を収集し、その結果をpg_statistic
システムカタログに保存します。
問い合わせプランナが最も効率の良い問い合わせの実行計画を決定する際、この統計情報が使用されます。
パラメータがない場合、ANALYZE
は現在のデータベース内の全てのテーブルを検査します。
パラメータがある場合、ANALYZE
は指定されたテーブルのみを検査します。
さらに列名のリストを与え、その列の統計情報のみを更新することも可能です。
VERBOSE
進行状況の表示を有効にします。
table_name
解析の対象とするテーブルの名前です(スキーマ修飾名も可)。 省略された場合、現在のデータベースの中のすべての通常のテーブル(外部テーブルは除く)が解析されます。
column_name
解析の対象とする列名です。 デフォルトは全ての列です。
VERBOSE
が指定された場合、ANALYZE
は進捗メッセージとして処理中のテーブルを表示します。
さらに、テーブルについての各種統計情報も表示されます。
外部テーブルは明示的に選択された場合にのみ解析されます。
すべての外部データラッパがANALYZE
をサポートしているとは限りません。
テーブルのラッパがANALYZE
をサポートしない場合、コマンドは警告を出力し、何も行いません。
デフォルトのPostgreSQLの設定では、自動バキュームデーモン(24.1.6. 自動バキュームデーモン参照)が、データが最初にロードされた時や通常の操作を通して変更された時にテーブルの自動解析まで面倒をみます。
もし自動バキュームが無効にしているならばANALYZE
は定期的に、もしくは、テーブルの内容に大きな変更がある度に行うことを推奨します。
統計情報が正確であれば、プランナが最も適切な問い合わせ計画を選択できるようになります。
これによって、問い合わせ処理の速度が向上します。
読み取りの多いデータベースでは、VACUUMとANALYZE
は、1日1回、データベースがあまり使用されていない時間帯に実行することが一般的です。
(非常に更新が激しい場合、これでは十分ではありません。)
ANALYZE
は、対象とするテーブルの読み取りロックのみを必要とします。
したがって、そのテーブルに対する他の操作と並行して実行することができます。
通常、ANALYZE
によって収集される統計情報には、各列の典型的な値と各列のデータ分布の概要を示す度数分布が含まれます。
ANALYZE
によってあまり意味がないとみなされた場合(例えば、一意性制約が付加された列では、典型的な値というものは存在しません)や、列のデータ型が適切な演算子をサポートしていない場合は、片方もしくは両方の情報を省略することがあります。
24章定常的なデータベース保守作業に、統計情報についての詳細が記載されています。
巨大なテーブルでは、ANALYZE
は、全ての行を検査するのではなく、テーブルの中からランダムにサンプルを取り出して使用します。
これによって、非常に巨大なテーブルであっても短時間で解析することが可能です。
しかし、このようにして得られた統計情報はおおよそのものでしかなく、テーブルの内容に変更がなくてもANALYZE
を実行する度に変化することに注意してください。
これにより、EXPLAINが表示する、プランナの推定コストも多少変化する可能性があります。
稀に、このような不確定要素のせいで、プランナがANALYZE
を実行した後に異なる問い合わせ計画を選択してしまうことがあります。
これを防止するには、以下に示すようにANALYZE
で収集される統計情報の量を増やしてください。
設定パラメータ変数default_statistics_targetを調整するか、もしくはALTER TABLE ... ALTER COLUMN ... SET STATISTICS
(ALTER TABLE参照)を使用して列単位の統計目標を列毎に設定することで、解析の範囲を制御することができます
目標値として設定するのは、典型的な値のリストにおけるエントリ数の最大値と度数分布のビンの最大数です。
デフォルトの目標値は100です。
しかし、この値は、プランナの推定精度とANALYZE
の処理時間、pg_statistic
の占める容量とのトレードオフによって大きくも小さくも調整されることがあります。
目標値を0に設定すると、その列に関する統計情報の収集は無効になります。
決してWHERE
句、GROUP BY
句、ORDER BY
句に使用されない列に対しては、このような設定が有用です。
プランナにとってそのような列の統計情報は不要だからです。
解析対象列の統計情報目標値の最大値によって、統計情報を作成するためにテーブルから抽出する行数が決定します。
目標値を大きくすると、比例して、ANALYZE
に要する時間とディスク容量が増加します。
ANALYZE
で推定される値の1つに各列に出現する個別値の個数があります。
行の部分集合のみしか検査されませんので、統計情報の対象をできる限り大きくしたとしても、この推定値はかなり不正確になることが時々あり得ます。
この不正確性のために悪い問い合わせ計画となる場合、より正確な値を手作業で求めて、ALTER TABLE ... ALTER COLUMN ... SET (n_distinct = ...)
(ALTER TABLE参照)で設定することができます。
解析中のテーブルが1つ以上の子テーブルを持つ場合、ANALYZE
は2回統計情報を収集します。
1回目は親テーブルのみのテーブル行を対象とし、2回目では親テーブルの行とそのすべての子テーブルの行を対象とします。
継承ツリー全体をたどる問い合わせの計画作成では、この2回目の統計情報群が必要とされます。
しかし自動バキュームデーモンでは、自動的に解析を行うかどうかを決定する際に親テーブル上の挿入や更新のみを考慮します。
このテーブルへの挿入や更新がほとんどなければ、継承関係に対する統計情報は手作業でANALYZE
を実行しない限り最新状態にはなりません。
子テーブルに外部テーブルがあり、その外部データラッパがANALYZE
をサポートしない場合、その子テーブルは継承の統計を取得する際に無視されます。
解析しようとするテーブルが完全に空である場合、ANALYZE
はそのテーブルに対する新しい解析情報を記録しません。
これまでの統計情報はすべて保持されます。
標準SQLにはANALYZE
文はありません。