|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Если хочу хранить данные в "колоночном" формате - куда мне идти с PG ? )) ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2018, 21:52 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
essbase.ruЕсли хочу хранить данные в "колоночном" формате - куда мне идти с PG ? )) Гусары - МОЛЧАТЬ! Вас в гугле забанили? Первая блин ссылка в гугле на postgresql column store. PS: скоро начну банить за вопросы которые гуглятся за 5 секунд чтобы не тратили время участников форума. -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2018, 23:17 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
ну и что, там ссылка на какую-то поделку на гитхабе. Наверное, человека интересует опыт использования. Можно ли её использовать в проде, какие характеристики и т.п. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.09.2018, 23:54 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Бумбарашну и что, там ссылка на какую-то поделку на гитхабе. Наверное, человека интересует опыт использования. Можно ли её использовать в проде, какие характеристики и т.п. Тогда и формулировать вопрос надо по другому - "я тут нашел следующие варианты для column-store для postgres (тут список), есть ли у кого то опыт использования и какие то комментарии по продукту?", т.е. показать что домашнюю работу и начальный research автор вопроса всетаки сделал а не притворяться беспомощным студентом. -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru ... |
|||
:
Нравится:
Не нравится:
|
|||
19.09.2018, 09:26 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Максим расскажите про свой опыт работы с колонычным хранением ? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.09.2018, 14:26 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
К сожалению, эта ветка появляется первой на запрос, как установить установить columnstore postgresql, однако ничего полезного не написано. Ветку в GitHub любой школьник может нагуглить за 5 секунд, но что с ней делать неясно. К тому же всё только на английском. Собственно два конкретных вопроса для тех, кто в теме: 1. Там первым делом ссылаются на другой проект citus: https://github.com/citusdata/citus Значит ли это, что проект cstore_fdw подлежит закрытию и надо сразу смотреть на citus? 2. В обоих проекта нет скомпилированных пакетов. На тему установки только ссылки для docker да linux. С которыми пока работать не приходилось. Значит ли это, что для Postgresql под Windows недоступен columnstore? Поясните пожалуйста. 3. Вроде как в MariaDB (продвинутый MySQL) уже есть встроенный columnstore. Кто-то им пользовался? Есть ли там реализация под Windows? Сейчас выбираю бесплатный sql-server для несложной БД, однако в ней будет сотни миллионов строк, поверх которых надо строит аналитические отчеты. Пробовали использовать MS OLAP. Пробовали как OLAP, так и TABULAR. Но Enterprise sql server ужасно дорогой. При этом если запилить руками запросы прямо к columnstore базе без использования OLAP, то работают они также быстро, как и TABULAR (собственно это и есть columnstore база). И порою быстрее, что старый OLAP, но при этом оперативки требуется гораздо меньше. Только сам Tabluar в пике съедает 80 ГБт оперативки, а он работает только в оперативке. Поэтому этот вариант как бы слишком дорогой. К тому же неудобно пользоваться сводными таблицами EXCEL, когда в фильтрах миллионы строк. Поэтому есть идея сделать Postgresql или MariaDB columnstore + процедуры, которые выдают сгруппированный и отфильтрованный набор данных, который уже поставлять в сводные таблицы EXCEL. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.02.2022, 15:07 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
VDeltsov 3. Вроде как в MariaDB (продвинутый MySQL) уже есть встроенный columnstore. Кто-то им пользовался? Есть ли там реализация под Windows? "я тут нашел следующие варианты для column-store для postgres (тут список), есть ли у кого то опыт использования и какие то комментарии по продукту?" (ц) https://www.sql.ru/forum/mysql ... |
|||
:
Нравится:
Не нравится:
|
|||
06.02.2022, 15:35 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Ролг Хупин, по Вашей ссылке ничего путного нет, только старые сообщения в среднем 10 летней давности. С тех пор MS SQL очень сильно продвинулся, например. Но сейчас интересует columnstore под windows для Postgre и MariaDB. Есть ли такое и сравнимы ли они по производительности с MS SQL, чтобы на 500 млн строк, которые в памяти, запросы заботали в среднем 1 секунду, как в MS SQL? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.02.2022, 20:42 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
У MS SQL Server цена теперь зависит от ядер, а не от процессоров, как было давным-давно. Поэтому на сервак с 44 ядрами (это все ядра, которые видны в диспетчере задач), покупка лицензий коллегам обошлась более 25 млн руб. Так что вопрос не праздный. Не все на Газпром работают. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.02.2022, 21:08 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
VDeltsov, >>1. Там первым делом ссылаются на другой проект citus: https://github.com/citusdata/citus По тексту на github очевидно что да >>2. В обоих проекта нет скомпилированных пакетов. На тему установки только ссылки для docker да linux. С которыми пока работать не приходилось. Значит ли это, что для Postgresql под Windows недоступен columnstore? Поясните пожалуйста. Если поискать есть нормальные пакеты для debian* и redhat* веток линукса + инструкция по сборке руками. Можете попробовать руками собрать под винду может и заработает (но без гарантий конечно), поскольку citus куплен MS давно MS не будет создавать конкуренцию своему sql серверу на виндовой платформе (и не надейтесь). Так что если вы не хотите разбираться с сборкой из исходников (и тонкостями портирования на винду) - у вас варианты mssql или облако от MS где citus есть как вариант услуги. По остальному - ответы выходят за пределы дискуссии на форуме. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.02.2022, 21:12 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Так же предлагали посмотреть на ClickHouse от Яндекса, но опять же это только Linux. Плюс проект молодой и специфичный под Яндекс-Метрику. Толком нельзя делать update/delete (пишут, что вроде как появились, но они асинхронны). SQL-не особо стандартный. В общем для людей привыкших к стандартным СУБД под винду - не очень подойдут. Да и такая ультра-скорость пока не требуется (говорят, что она в 100 000 раз быстрее обычной row-based СУБД). А вот чтобы загрузка данных и SQL-запросы были как в обычную базу данных - очень бы хотелось. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.02.2022, 21:14 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
VDeltsov но опять же это только Linux Все серьезные продукты сейчас под Linux. Как минимум по части СУБД. Ну кроме MSSQL естественно. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.02.2022, 23:21 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Установил себе MariaDB под Windows, и columnstore таблиц тоже не нашел. Читаем тут: https://mariadb.com/kb/en/installing-mariadb-columnstore-5/ Похоже, что оно включено только в MariaDB Enterprise Server, который тоже платный: https://mariadb.com/pricing/ На MariaDB Community Server 10.5 тоже можно поставить самостоятельно, но только под Linux: https://mariadb.com/docs/features/mariadb-columnstore/ MariaDB ColumnStore is available on select platforms: CentOS 7 (x86_64) CentOS 8 (x86_64) Debian 9 (x86_64) Debian 10 (x86_64) Debian 11 (x86_64) Red Hat Enterprise Linux 7 (x86_64) Red Hat Enterprise Linux 8 (x86_64) SUSE Linux Enterprise Server 12 (x86_64) SUSE Linux Enterprise Server 15 (x86_64) Ubuntu 18.04 LTS (x86_64) Ubuntu 20.04 LTS (x86_64) Похоже, под винду бесплатно только в MS Sql Server Express, но там только по 10 ГБт на каждую базу, и ограничения по памяти. Для 20-30 млн строк пробовал - работает прекрасно. Для небольших проектов самое оно. Есть мысли? Или только на Linux переходить на старость лет? PS: MS Sql Server Developer Edition не предлагать, так как нужен только легальный софт. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.02.2022, 23:55 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
VDeltsov, Бесплатно Под windows Нормально собрано и работает выберите два из 3х и дальше решайте... open source разработка серверного ПО под windows никому особо не интересна по ряду причин. -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru ... |
|||
:
Нравится:
Не нравится:
|
|||
07.02.2022, 00:05 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
VDeltsov, можете Vertica и Greenplum еще посмотреть ... |
|||
:
Нравится:
Не нравится:
|
|||
07.02.2022, 00:15 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Бумбараш VDeltsov, можете Vertica и Greenplum еще посмотреть И то и другое - весьма так платное. -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru ... |
|||
:
Нравится:
Не нравится:
|
|||
07.02.2022, 00:20 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Maxim Boguk Бумбараш VDeltsov, можете Vertica и Greenplum еще посмотреть И то и другое - весьма так платное. -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru У вертики есть бесплатная версия. До одного ТБ что ли. Многие так юзают. Гринплам вообще всегда бесплатный был полностью. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.02.2022, 01:18 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Бумбараш Maxim Boguk пропущено... И то и другое - весьма так платное. -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru У вертики есть бесплатная версия. До одного ТБ что ли. Многие так юзают. Гринплам вообще всегда бесплатный был полностью. Помоему ни там ни там нативных Windows версий просто нет (про вертику уверен на 90%, про greenplum на 100%). -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru ... |
|||
:
Нравится:
Не нравится:
|
|||
07.02.2022, 10:10 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
VDeltsov Установил себе MariaDB под Windows, и columnstore таблиц тоже не нашел. Читаем тут: https://mariadb.com/kb/en/installing-mariadb-columnstore-5/ Похоже, что оно включено только в MariaDB Enterprise Server, который тоже платный: https://mariadb.com/pricing/ На MariaDB Community Server 10.5 тоже можно поставить самостоятельно, но только под Linux: https://mariadb.com/docs/features/mariadb-columnstore/ MariaDB ColumnStore is available on select platforms: CentOS 7 (x86_64) CentOS 8 (x86_64) Debian 9 (x86_64) Debian 10 (x86_64) Debian 11 (x86_64) Red Hat Enterprise Linux 7 (x86_64) Red Hat Enterprise Linux 8 (x86_64) SUSE Linux Enterprise Server 12 (x86_64) SUSE Linux Enterprise Server 15 (x86_64) Ubuntu 18.04 LTS (x86_64) Ubuntu 20.04 LTS (x86_64) Похоже, под винду бесплатно только в MS Sql Server Express, но там только по 10 ГБт на каждую базу, и ограничения по памяти. Для 20-30 млн строк пробовал - работает прекрасно. Для небольших проектов самое оно. Есть мысли? Или только на Linux переходить на старость лет? PS: MS Sql Server Developer Edition не предлагать, так как нужен только легальный софт. "Установил себе MariaDB под Windows" - я выше давал ссылку на форум по MySQL, но вы настойчиво здесь ищете ... |
|||
:
Нравится:
Не нравится:
|
|||
07.02.2022, 10:33 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Доброй ночи, потратил весь рабочий день (плюс коллег) на то, чтобы установить на виртуалку Ubuntu, Posgresql, Citus. Сделал linked server из MS SQL Server через ODBC, попытался вставить данные из SQL Server в Posgresql в колоночную таблицу. И фиг вам... ERROR: UPDATE and CTID scans not supported for ColumnarScan Попытался вставить одну строку через insert into () values(). Так же ошибка. Далее вернулся в сам PGAdmin (без MS SQL), одна строка вставляется. Ну думаю, может просто ODBC для Posgresql не работает. Иду опять в PGAdmin и пишу элементарнейший запрос: update tableaaaa set prnum = 1 И тоже получаю такую же ошибку?!?! Далее читаю весь интернет на тему этой ошибки и натыкаюсь на японском сайте на ссылку: https://docs.citusdata.com/en/v10.2/admin_guide/table_management.html#limitations Limitations: Future versions of Citus will incrementally lift the current limitations: Append-only (no UPDATE/DELETE support) Это просто шедеврально! Или я чего-то не понимаю в этой жизни, или людям нравится только вставлять записи, а при необходимости обновить или удалить запись - всегда целиком пересоздают таблицу. Это вообще КАК? И главное, на этом форуме за три года никто об этом не написал. Неужели никто кроме меня не пробовал эти колоночные таблицы в Posgresql + Citus. Или я что-то не так сделал? Забегая вперед, чтобы не тратить еще день на танцы с бубном (и не дублировать ветки форума). В MariaDB такие же "чудеса техники"? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2022, 00:37 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Мало того, даже для вставки данных Columnstore таблица в PostGreSQL не может понадобиться в реальном проекте, так как вставлять сюда можно только большими кусками, например складывать люда старые логи (благо изменять их не требуется). Даже просто в качестве таблицы логов такой фуфломицин от postgessql не подойдет. Читаем по той же ссылке: Citus converts rows to columnar storage in “stripes” during insertion. Each stripe holds one transaction’s worth of data, or 150000 rows, whichever is less. То есть если вставлять обычные свежи логи, то каждая запись будет как бы в отдельном файле (сегменте), поэтому будет не сжатие данных, а их раздувание. Чтобы потом сжать данные (дефграгментировать) надо ПЕРЕСОЗДАВАТЬ таблицу (с остановкой всех сервисов, возможно, на длительное время, чтобы никто не вставил данные в старую копию таблицы): BEGIN; CREATE TABLE foo_compacted (LIKE foo) USING columnar; INSERT INTO foo_compacted SELECT * FROM foo; DROP TABLE foo; ALTER TABLE foo_compacted RENAME TO foo; COMMIT; Мало того эти старые логи потом невозможно чистить, так как операции DELETE пока тоже не предусмотрено. Надо опять пересоздавать таблицу, либо заранее делать партиции. Чтобы удалять целиком партициями. Уж насколько это всё прозрачно в MS SQL - просто нет слов. Он сам делит данные на куски по миллиону, создает словари и сжимает каждый кусок. Новые строки сначала кладет в кучу, и когда их наберется много - только тогда их сжимает. Удаление и вставка не приветствуются, однако работают они так же прозрачно, как в обычной таблице. Просто старая запись по помечается на удаление (номер строки добавляются в список удаленных строк), а новая строка (при обновлении) вставляется в конец. И есть команда для переиндексирования таблицы. alter index CCSI_Table1 on dbo.Table1 REBUILD или alter index ALL on dbo.Table1 REBUILD Да, таблица блокируется (так как DDL) - все ждут разблокировки, но по крайней мере не требуется заботиться о том, чтобы никто не вставил записи в старую копию таблицы. К тому же реально это пережимать не требуется. Раз в полгода-год подойдет. Кстати, экспериментировал с бесплатным MS SQL Express на стареньком компе. База на 500 млн строк (10 гб таблица фактов и еще столько же справочники*) запрос работает 30 секунд на SSD, но при этом данные каждый раз считываются с диска, так как в памяти разрешено менее 1 ГБ. На полноценном сервер нужные колонки первый раз считываются в память и далее запрос работает за 0 секунд. *Справочники плохо сжимаются, так как там зачастую разные текстовые поля. *Ограничение в 10 ГБ можно официально обойти создав на одном сервере несколько баз данных, например, справочники отдельно, таблица фактов отдельно (или разбить её на партиции по годам - будет еще быстрее). *Или как не очень честное решение - сделать большую базу на Developer Edition и подменить файлы на заранее созданную базу в Express Edition. В общем мы пока в поисках - у кого есть реальный опыт использования для OLAP SQL-запросов бесплатной СУБД со всеми стандартными возможностями SQL, включая update/delete (синхронный, а не асинхронный, как в ClickHouse). Желательно и с оконными функциями. Они возможно понадобятся, чтобы посчитать входящий остаток (сумма по строкам в той же группировке, но за предыдущие даты). ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2022, 09:28 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Maxim Boguk VDeltsov, >>1. Там первым делом ссылаются на другой проект citus: https://github.com/citusdata/citus По тексту на github очевидно что да >>2. В обоих проекта нет скомпилированных пакетов. На тему установки только ссылки для docker да linux. С которыми пока работать не приходилось. Значит ли это, что для Postgresql под Windows недоступен columnstore? Поясните пожалуйста. Если поискать есть нормальные пакеты для debian* и redhat* веток линукса + инструкция по сборке руками. Можете попробовать руками собрать под винду может и заработает (но без гарантий конечно), поскольку citus куплен MS давно MS не будет создавать конкуренцию своему sql серверу на виндовой платформе (и не надейтесь). Так что если вы не хотите разбираться с сборкой из исходников (и тонкостями портирования на винду) - у вас варианты mssql или облако от MS где citus есть как вариант услуги. По остальному - ответы выходят за пределы дискуссии на форуме. Сегодня это уже не так. MS прошла этот этап неприятия конкурентов и т.д. , сейчас они предлагают SQL Server под Линукс, в Азуре PostgreSQL. AWS предоставляет выбор юзерам. Новые возможности SQL Server могут помочь в борьбе с конкурентами, особенно бесплатными. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2022, 10:24 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
Ролг Хупин Maxim Boguk VDeltsov, >>1. Там первым делом ссылаются на другой проект citus: https://github.com/citusdata/citus По тексту на github очевидно что да >>2. В обоих проекта нет скомпилированных пакетов. На тему установки только ссылки для docker да linux. С которыми пока работать не приходилось. Значит ли это, что для Postgresql под Windows недоступен columnstore? Поясните пожалуйста. Если поискать есть нормальные пакеты для debian* и redhat* веток линукса + инструкция по сборке руками. Можете попробовать руками собрать под винду может и заработает (но без гарантий конечно), поскольку citus куплен MS давно MS не будет создавать конкуренцию своему sql серверу на виндовой платформе (и не надейтесь). Так что если вы не хотите разбираться с сборкой из исходников (и тонкостями портирования на винду) - у вас варианты mssql или облако от MS где citus есть как вариант услуги. По остальному - ответы выходят за пределы дискуссии на форуме. Сегодня это уже не так. MS прошла этот этап неприятия конкурентов и т.д. , сейчас они предлагают SQL Server под Линукс, в Азуре PostgreSQL. AWS предоставляет выбор юзерам. Новые возможности SQL Server могут помочь в борьбе с конкурентами, особенно бесплатными. sql сервер под линукс НИКАК не конкурирует с standalon mssql - цена там ровно таже (и сильно выше цены серверной винды) Азуре PostgreSQL - опять же никак не конкурирует с standalone mssql у клиента который за большие деньги продают. Надо понимать что облачные предложения они вообще более менее DB-нейтральны и поставщик так или иначе свои деньги на клиенте заработает. А вот экосистема stanalone mssql для крупных клиентов - штука очень отдельная и дорогая, и вот там как раз там конкурентов создавать себе никто не будет (поэтому standalone citus платного или не очень на винде скорее всего не будет). -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2022, 11:11 |
|
Column Store (GreenPlum ?)
|
|||
---|---|---|---|
#18+
VDeltsov, "Даже просто в качестве таблицы логов такой фуфломицин от postgessql не подойдет. " - я бы попросил по аккуратнее. Для начала это полностью независимый внешний от postgresql модуль который особо и отношения к postgresql ядру не имеет. Второе - скорость колоночных баз как раз от того что они нормально только insert only операции умеют так как update/delete на колоночную модель базы вообще не ложится. Третье - если у вас много update/delete и не очень большой обьём базы - вполне может оказаться что достаточный для работы SLA обеспечивается на нормальной обычной базе (особенно с учётом того что pg неплохо умеет заметную часть аналитики считать на нескольких ядрах сразу). Если вас ни citus ни clickhouse не устраивают - надо думать о том насколько вообще ваша задача на колоночную модель ложится. 10GB база для postgresql вообще ни о чём, и там и обычный storage будет более менее ок запросы считать. -- Maxim Boguk лучшая поддержка PostgreSQL: dataegret.ru ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2022, 11:18 |
|
|
start [/forum/topic.php?fid=53&msg=40132137&tid=1993667]: |
0ms |
get settings: |
10ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
26ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
60ms |
get tp. blocked users: |
1ms |
others: | 15ms |
total: | 146ms |
0 / 0 |