DB Index и партиционирование

ML Advertising

DB Index и партиционирование

Некоторое время работаю с датамартами на Postgres. В этой связи, решил собрать в кучу мысли по партиционированию данных в DB. Сошлюсь на тред в stackoverflow и постгресовскую документацию

Организация индексов
- Один многоколоночный индекс лучше, чем несколько одноколоночных, если фильтруем по нескольким колонкам
- Несколько одноколоночных индексов эффективнее, если часто фильтруем только по одной колонке
- Если данные временные, то партиционируем. Ставим фильтр по временной колонке + добавляем в индекс те, по которым чаще всего фильтруем. В итоге получаем многоколоночный индекс вида (date, publisher, country, ...).

Что по датамартам?
- Для датамартов делаем партиции по колонкам, по которым чаще всего фильтруем
- Таблицы с разной степенью агрегации: raw час, hourly день, daily месяц
- materialized view поверх них
- Redash или Superset делает запрос уже к materialized view

Какие альтернативы Постгресу?

TimescaleDB
Это расширение под постгрес для временных данных. Разбиваем данные на гипертаблицы, которые автоматически партиционируются по времени + можно выбрать опционально партиционирование по ключу. При этом так же Постгрес не скейлится горизонтально

Apache Druid
Колоночная OLAP DB. Ее уже можно скейлить горизонтально. Но не поддерживает join'ы. SQL синтаксис доступен через Druid SQL

Stack Overflow

Postgresql: multicolumn indexes vs single column index

I have a table that will grow by 10M of rows every year.
The table has 10 columns, call them c1, c2, c3, ..., c10.
I will use the WHERE clause, potentially on 8 of them.
To be more specific: every ...

www.group-telegram.com/us/dsinsights.com/352

848 viewsedited May 15 at 23:25

group-telegram.com/dsinsights/352

Create: 2025-05-15
Last Update: 2025-06-27 17:08:59

BY ML Advertising

Share with your friend now:
group-telegram.com/dsinsights/352

Telegram | DID YOU KNOW?

DB Index и партиционирование