powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Что почитать насчёт обращения с big data?
40 сообщений из 40, показаны все 2 страниц
Что почитать насчёт обращения с big data?
    #39565276
Лиса Алиса
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Как создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565281
Фотография DВА
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лиса АлисаКак создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.

не помню кто из ораклистов сказал - "если бы существовали конкретные правила, они бы уже давно были реализованы на уровне ядра" ))
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565290
Фотография env
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DВА,

Так в 18-й версии же всё само автонастроится и будет идеально работать.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565309
Лиса Алиса
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
DВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565320
Фотография DВА
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лиса АлисаDВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?
Ну после Кайта приличным тоном считается читать Милсапа
там правда тоже вода, но мозги систематизирует )
осилите Милсапа, переходите на Льюиса
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565332
Фотография rf_mail
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лиса АлисаКак создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.

best fairy docs
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565369
Тролин
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Скоро выйдут 18с (12.2.0.3)и 19с (12.2.0.4)...в каждой улучшений и автоматизаций на 1500%....админы для менеджеров не нужны. Зп помно снижать вопрос в том что на рынке технарей уже не остается
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565370
Тролин
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Это описание страшного сна
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565378
Bobby Z.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лиса АлисаКак создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, Variety (в последнее время, с подачи IBM, ещё добавляют Veracity). Реляционные БД, в целом, не решают последние два V, а многие спотыкаются ещё и на первых двух. А Вы спрашиваете про оптимизацию производительности, причём, как я понимаю, в контексте конкретной RDBMS: Oracle. Начинайте с Concepts, потом, как коллеги рекомендуют, Кэри Миллсап, Джонатан Льюис, Коннор Макдоналд, Танел Подер, Чарльз Хупер, их блогроллы,... И - эксперименты, эксперименты, эксперименты. Пробовать и проверять на практике всё, что узнали, постоянно задавать себе вопросы "а как это работает?" и "а что, если...?" и самостоятельно находить на них ответы, в документации, или в книгах, блогах, или, наконец, экпериментально, а если не получается найти, то спрашивать у тех, у кого получилось.

А за конкретными правилами - это к Бурлесону. :)
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565394
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bobby Z.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, VarietyМеня тоже поразило как все оказались на одной волне с ТС.

В наших краях big data - это экосистема hadoop.
Соотетсвенно, если в названии позиции есть big data, то речь гарантированно про hadoop.

А то доходит до абсурда, когда мне знакомый из России говорит "я устроился разработчиком C# на big data project",
по факту это оказалось C# + MSSQL, а big data использовано ибо им кажется что у них много данных.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565396
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лиса АлисаDВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?oracle vldb best practices
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565449
Фотография DВА
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,
ну если уже докапываться "до буквы закона", то биг дата это все-таки не непересекающийся с ораклом ни одним местом хадуп, а Oracle Big Data Appliance )
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565503
Bobby Z.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DВАне непересекающийся с ораклом ни одним местом хадупНу, как бы уже давно пересекающийся через Big Data SQL... И дальше будет только больше пересечений, потому что Hadoop - это, конечно, модно и круто и у всех ассоциируется с big data, но при этом всем хочется SQL, причём не рудиментарный HiveQL, а полноценный, сравнимый по возможностям с Oracle или Transact-SQL. Ну потому что ничего лучше SQL для декларативной работы с множествами пока так и не придумали (хоть Баба-Яга Крис Дейт и против). Наваять такой SQL engine в open source с нуля проблематично, но можно попытаться портировать что-то уже работающее и проверенное временем. И такие попытки есть, и весьма многообещающие: HAWQ, он же Pivotal Greenplum on Hadoop. Greenplum, в свою очередь, основан на PostgreSQL, который среди open source RDBMS, пожалуй, единственный достойный конкурент Ораклу. Так что с этой стороны конвергенция идёт вовсю. Вендорам традиционных RDBMS, чтобы не потерять рынок, ничего другого не остаётся, как поддерживать популярные гетерогенные хранилища данных наравне со своими собственными, что они все наперегонки и делают (Oracle Big Data SQL, Microsoft Polybase, IBM BigInsights).
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565694
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DВАбиг дата это все-таки не непересекающийся с ораклом ни одним местом хадупВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Подер тоже захотел откусить кусок пирога и даже основал компанию Gluent, которая предоставляет скрещенные решения на Hadoop + Oracle - Connecting Hadoop and Oracle .
И сделано у него чуть лучше и гибче чем в поставке из коробки, но для меня не до конца понятно на что он надеется.
В лучшем случае Оракл это купит, в худшем - сделает то же самое уже со своими улучшениями.

Просто поначалу у многих была истерия по миграции всех RDBMS на здооровенные hadoop кластеры состоящие из "commodity hardware" или в облако, потом стало приходить понимание, что даже как хранилище с возможностью модицикаций данных для оперативного дня hadoop не очень (правда есть достаточно умные люди, которые все еще надеятся реализовать модификацию данных в hadoop). Все идет как раз к скрешенным решениям когда, скажем, неделя в Оракле, а остальное оффлоадится в хадуп.
DВАOracle Big Data ApplianceЭто, наверное, первым делом приходит на ум тому, кто начинает утро с чтения Оракловых маркетинговых буклетов.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565718
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bobby Z.при этом всем хочется SQL, причём не рудиментарный HiveQL, а полноценный, сравнимый по возможностям с Oracle или Transact-SQLА всем это кому?
HiveQL практически ничем не уступает microsoft диалекту SQL.
Есть аналитические функции, grouping sets, нет разве что CTE (так оно не очень и надо - для этих целей другие инструменты).
А то, что есть некоторые ограничения на подзапросы или предикаты, так это даже плюс.
Ибо пишущий должен немного понимать как работает инструмент, чтоб не делать ложных выводов.
Вот Impala поддерживает OR-предикаты соединения в отличие от Hive и бизнес аналитик пишет соединение двух табличек,
а потом ждет окончания выполнения весь день ибо OR - это только nested loops при невозможности сделать concatenation.
И пока запрос выполняется он еще создает шум и рассказывает окружающим какой Impala отстой.
Bobby Z.Ну потому что ничего лучше SQL для декларативной работы с множествами пока так и не придумалиВ 95% случаев таки лучше, для остальных 5% есть Spark.
Не понятно такое зацикливание на SQL engine, многие фишки не имеют смысла ибо нет инексов (те же коррелированные скаляры кооторые не могут быть unnested).
Все развивается вполне логично и если есть желание - можно допилить свою query transformation - всё открыто . Это не Оракл.
Bobby Z.попытаться портировать что-то уже работающее и проверенное временемУже есть SQL engines
Spark SQL
Impala
Hive
Tez
... что еще портировать?
Это выглядит как попытки перешедшего с MSSQL на Oracle портировать свои best practices со временными таблицами.
Надо понимать отличия в архитектуре и что там уместно, а что нафиг не надо.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565730
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bobby Z.Вендорам традиционных RDBMS, чтобы не потерять рынок, ничего другого не остаётся, как поддерживать популярные гетерогенные хранилища данных наравне со своими собственными, что они все наперегонки и делают (Oracle Big Data SQL, Microsoft Polybase, IBM BigInsights).Кроме поддержки скрещенных решений можно предлагать свои механизмы по размызванию нагрузки, что Оракл и сделал с его sharding architecture.
Правда мне неизвестны реальные примеры использования.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565794
Фотография DВА
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565812
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DВАdbms_photoshopВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565835
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopDВАпропущено...

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.1) Там Cloudera Data Hub Edition входит в поставку
2) Если брать сравнимое железо от других вендоров (ну т.е. не на горбушке россыпью), то цена будет сравнима
3) Oracle Big Data Appliance обычно берут, когда Hadoop становится достаточно критичным для бизнеса
4) У Oracle на данный момент лучший ПАК для Big Data (по оценке Forrester) https://blogs.oracle.com/infrastructure/oracle-bda-leads-the-big-data-pack
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565845
Фотография DВА
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopDВАпропущено...

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.


«Oracle Big Data Appliance является превосходным выбором для клиентов, которые хотят работать с полным комплексом передовых Hadoop-технологий Cloudera. Это более экономичный и быстрый в развертывании вариант в сравнении с созданием кластера собственными силами, — заявил Майк Олсон (Mike Olson), основатель, главный статег и председатель совета директоров компании Cloudera. — Что касается выполнения запросов к данным в Hadoop, мы отметили огромную потребность клиентов в SQL. Именно поэтому Cloudera разработала решение Impala, которое Oracle включает в платформу Oracle Big Data Appliance, чтобы предоставить клиентам возможность легко и эффективно выполнять запросы к данным в Hadoop с использованием SQL. Клиентам, которым требуется выполнять запросы и анализировать данные, размещенные в Hadoop и Oracle Database, решение Oracle Big Data SQL предлагает поддержку HDFS, позволяет использовать существующие навыки SQL и политики безопасности, а также упрощает интеграцию Hadoop с существующей инфраструктурой Oracle».
:)
Кстати тоже до сих пор не понимаю, почему бы ПО с селов экзадаты не распространять без привязки к самой экзадате ) Кому нада - воссоздал себе экзадату на парочке домашних ноутов ))
Но жирафф большой ему видней ))
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565873
dbpatch
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopBobby Z.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, VarietyМеня тоже поразило как все оказались на одной волне с ТС.

В наших краях big data - это экосистема hadoop.
Соотетсвенно, если в названии позиции есть big data, то речь гарантированно про hadoop.

А то доходит до абсурда, когда мне знакомый из России говорит "я устроился разработчиком C# на big data project",
по факту это оказалось C# + MSSQL, а big data использовано ибо им кажется что у них много данных.

в вашем колхозе - да, это наверное гарантированно.
а так - полезно иногда читать не только ленту.ру газету Сельскую Жизнь, но быть хоть не много в курсе, как на самом деле обстоят дела.

ну или Технику Молодежи почитать, тоже сгодится, сойти за умного:
https://habrahabr.ru/post/303802/
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565876
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DВА,

Для того, чтобы обеспечить более высокий уровень сервиса нужно иметь меньшую энтропию, чем имеет самосбор (диски, флеш кэш, драйвера, ОС, firmware, файловая система и т.д.)...
Но для тех, у кого железо жестко зафиксировано - это печалька
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565885
dbpatch
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinDВА,

Для того, чтобы обеспечить более высокий уровень сервиса нужно иметь меньшую энтропию, чем имеет самосбор (диски, флеш кэш, драйвера, ОС, firmware, файловая система и т.д.)...
Но для тех, у кого железо жестко зафиксировано - это печалька

самосборы бывают разные - кто-то на ноутах себе RAC собирает, а кто-то инфраструктуру в виде готовых контейнеров поставляет, или датацентры целиком вместе с DevOpsами и прочим.

вот последним фичи екзадата не помешали бы, чисто в софте - ценного там только ее компрессия, которая якобы только жутко аппаратная, на самом деле это лишь софтовая реализация + нетехнический hardware vendor-lock.

но из-за HCC компрессии заставлять покупать железно только одного производителя - это как-то... неконкуретно, что-ли..
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565896
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbpatch,

Там помимо hcc довольно много всего...
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565907
dbpatch
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Ryndindbpatch,

Там помимо hcc довольно много всего...

к примеру?

all flash storage, infiniband network - не смешно, такое могут не только они, а порой и получше.
storage offloading - фича, скажем так, спорная, нужно очень хорошо постараться, чтоб увидеть ее бенефит, для generic case разницы и вовсе особой нет.

а больше там и нет ничего такого

лучше бы они допилили до ума свои external tables, чтоб можно было задавать всякие аргументы-параметры уровня сессии для препроцессора, не через, простите, ......у, т.е. грязные хаки с parent process id

то что они там в 12.2 сделали - это совсем мимо кассы.

хотя это уже не про экзадата
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39565909
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Ryndin1) Там Cloudera Data Hub Edition входит в поставкуНу у хадупа три основных вендора mapr cloudera hortonworks и все они любезно помогут все установить и настроить за денюжку на кластере заказчика.
Alexander Ryndin2) Если брать сравнимое железо от других вендоров (ну т.е. не на горбушке россыпью), то цена будет сравнимаЕсть прямо противоположное мнение, что экономия огромна. Но конкретные цифры вряд ли кто-то в открытый доступ вывалит.
Alexander Ryndin3) Oracle Big Data Appliance обычно берут, когда Hadoop становится достаточно критичным для бизнесаА изолированный хадуп - это просто поиграться? :)
Alexander Ryndin4) У Oracle на данный момент лучший ПАК для Big Data (по оценке Forrester)Что мы имеем по факту
full complement of software components, including Cloudera Enterprise Data Hub Edition, Oracle NoSQL Database CE, Oracle R Distribution, Oracle Linux, Oracle Data Integrator, Oracle Loader for Hadoop, Oracle R Advanced Analytics for Hadoop, and Oracle Spatial and Graph
* Oracle R это, конечно, хорошо. Только пожалуй R во всем хуже python кроме того, что на нем реализован ряд экслюзивных алгоритмов (которые потихоньку портируются).
Динамика достаточно красноречива ( https://stackoverflow.blog/2017/09/06/incredible-growth-python/).
Речь про цивилизованный мир (high-income countries).

* Oracle Data Integrator... вполне понятно, что Оракл пытается это продвигать. Но для загрузки/выгрузки каждый использует то, что знает лучше или вообще пишет свой велосипед.
* Для Spatial and Graph есть opensource аналоги, то есть здесь тоже должен быть очень важный аргумент, чтоб использовать Оракловое - например наличие уже ораклового решения которое частично выносится в хадуп. :)
В сухом остатке Оракл может и засунул в коробку больше чем кто либо, вот только не очень понятно для кого это всё.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566040
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbpatch,

1) storage offloading отличная штука. Но она для отчетов в оперативных базах и для DWH. Для чистого OLTP редко дает преимущество. Позволяет таскать данные в Buffer Cache, а фильтровать их на уровне SAN. Не все фильтры работают на уровне SAN, но для отчетов это может сократить объем данных в разы-порядки.
2) flash cache (это не all flache) - он есть и в обычных дисковых. Отлично работает для OLTP, поскольку прозрачно и без дополнительного управления кэширует горячую часть базы. Также хорошо работает для ODS/Real Time DWH. Позволяет одновременно полным потоком лить данные в хранилище и параллельно анализировать их. При этом нагрузки не пересекаются. Опять же это полностью прозрачно работает
3) storage index. Стреляет нечасто, но когда стреляет очень круто работает. Позволяет fullscan не сканировать все данные, а сканировать только блоки данных, в которых данные подходят под условие.

Я не пытаюсь вас убедить покупать Exadata. Лишь делюсь рельными кейсами, где это действительно сильно стреляло. Exadata плохой пример для маленьких базенок размером 100 Мб.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566057
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DВАOracle Big Data Appliance является превосходным выбором для клиентов, которые хотят работать с полным комплексом передовых Hadoop-технологий ClouderaЭто не отвечает на вопрос зачем вообще хадуп если есть такая железка с Ораклом.
Можно перечислить достаточно экзотические причины чтоб обосновать своё хотение работать с хадуп в таком случае
1.
Задействовать уже реализованные фреймфорки из хадупа для работы, скажем, с графами или анализа данных.
Ну или просто писать свою логику на Spark для параллельной обработки (которая на SQL не реализуема).
2.
Использовать особенности HDFS и хранения данных.
2.1 Воспользоваться тем, что хадуп позволяет анализировать данные в любом формате и даже натягивать таблицы на данные в любом формате (писать свои писать свои Serializer/Deserializer если не хватает имеющихся)
В Оракле тоже можно пытаться натянуть external table на что угодно, но это что угодно надо сначала размазать по узлам, чтоб обработка была распараллелена по аналогии с хадупом.
2.2 Имеюся ну просто огромные объемы и имеет смысл секционировать более чем по 2-м уровням.
При этом каждая под-под-под-секция будет реплицирована по узлам, хоть и представляет собо логически один файл.
В Оракле же секция (или под-секция) это сегмент, который хранится... или в экзадате можно сегмент размазать по разным нодам и читать и обрабатывать его во много потоков?
И главное помнить, что вся эта супер-пупер параллельность в хадупе реализована в ущерб транзакционности.

Это, как уже было замечено, достаточно экзотические случаи, где Оракл собсветнно и не конкурент.

Если же говорить о типичном пусть даже очень большом хранилище, то необходимость хадупа при наличии экзадаты очень сомнительна.
Хотя тут Оракл уступает нескольким конкурентам из-за отсутсвия true columnar формата.
(in-memory columnar 12c только в памяти, а hybrid columnar compression это костыль)
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566063
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopAlexander Ryndin1) Там Cloudera Data Hub Edition входит в поставкуНу у хадупа три основных вендора mapr cloudera hortonworks и все они любезно помогут все установить и настроить за денюжку на кластере заказчика.Могут. Но в деньги, которые платятся за Oracle BDA уже включена самая крутая редакция Cloudera. Я лишь говорю, что нужно яблоки с яблоками сравнивать. Hub Edition недешево стоит.
Ну и единое окно поддержки, когда ты вендору говоришь: херово работает, а дальше это его уже проблема найти узкое место (драйверы, настройки памяти, патч на cloudera, дохлый диск)
dbms_photoshopAlexander Ryndin2) Если брать сравнимое железо от других вендоров (ну т.е. не на горбушке россыпью), то цена будет сравнимаЕсть прямо противоположное мнение, что экономия огромна. Но конкретные цифры вряд ли кто-то в открытый доступ вывалит.У меня есть скупые заказчики, которые все считали. Не выходит там серьезной разницы.
У Oracle есть опубликованный документ
http://www.oracle.com/us/technologies/big-data/eng-systems-for-big-data-esg-wp-2852701.pdf
dbms_photoshopAlexander Ryndin3) Oracle Big Data Appliance обычно берут, когда Hadoop становится достаточно критичным для бизнесаА изолированный хадуп - это просто поиграться? :) А BDA тоже изолированный Hadoop. Вообще, 90% инсталляций Hadoop сейчас это поиграться. Про BDA я говорю то, что вижу. У меня перед глазами уже 3 заказчика, кто вышел в пром и задолбался с китайским XXXXX, затем купил BDA. Один из заказчиков прогнал тесты на commodity и на BDA. Impala на BDA работала значительно лучше. Просто там все изначального грамотно затюнено.
dbms_photoshopAlexander Ryndin4) У Oracle на данный момент лучший ПАК для Big Data (по оценке Forrester)Что мы имеем по факту
full complement of software components, including Cloudera Enterprise Data Hub Edition, Oracle NoSQL Database CE, Oracle R Distribution, Oracle Linux, Oracle Data Integrator, Oracle Loader for Hadoop, Oracle R Advanced Analytics for Hadoop, and Oracle Spatial and GraphВсе это кроме CDH Hub Edition не входит по стоимости в BDA и является опцией (ну кроме R, компилированного с помощью коммерческих компиляторов). Никто вам их не навязывает.
dbms_photoshop* Oracle R это, конечно, хорошо. Только пожалуй R во всем хуже python кроме того, что на нем реализован ряд экслюзивных алгоритмов (которые потихоньку портируются).Религиозный спор. Не охота про это спорить. Кто-то любит суп, а кто-то борщ.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566090
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Ryndin,

Аргументы понятны.
Пользуясь случаем, интересно, есть успешные внедрения скрещивания GoldenGate + Kafka?
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566125
dbpatch
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinЯ не пытаюсь вас убедить покупать Exadata. Лишь делюсь рельными кейсами, где это действительно сильно стреляло. Exadata плохой пример для маленьких базенок размером 100 Мб.

звучит как-то странно. я ведь говорил про HCC не из соображений "прочитал про него в white list и вот что я думаю".
мы вполне погоняли наши case и на exadata в разных вариантах, и на сопоставимом железе рядом. используется на практике и то и другое, где нагрузка позволяет.

а по факту из exadata реально нужен лишь HCC, т.е. - отключение чудо байта в коде.
по остальным опциям выигрыш считается не в разы, как с HCC, а на проценты (хотя да, иногда многие десятки оных), а проценты можно и потерпеть :)

речь идет про конечный результат, затраты времени по его построению.

но обосновывать exadata лишь наличием программной фичи columar compression, без возможности выбора альтернатив - для любого менеджмента не слишком убедительно.

хотя не сравнить, конечно, с обоснованием нетеззы...
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566137
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopAlexander Ryndin,

Аргументы понятны.
Пользуясь случаем, интересно, есть успешные внедрения скрещивания GoldenGate + Kafka?в России препроды только. За границей много
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566164
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbpatch,

А тестировали с помощью Oracle или сами? Вообще, конечно, не на каждой задаче стреляет. Бывают случаи, когда PL/SQL или очень специфические схемы данных с глубокой вложенностью запросов...
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566257
Bobby Z.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopУже есть SQL engines
Spark SQL
Impala
Hive
Tez
... что еще портировать?
Всё перечисленное как-то неудобно называть SQL engines в контексте Oracle, MSSQL, DB2 и даже Postgres. :) Ну, примерно, как называть Запорожец или Москвич "тоже автомобиль" в одном ряду с Тесла и МБ, указывая на наличие четырёх колёс, двигателя, трансмиссии, педалей, руля и способности самостоятельно передвигаться с места на место. Ну и потом, по факту, Tez - вообще не про SQL, Hive не понимает SQL, а понимает его ограниченное подмножество под названием HiveQL, Spark SQL тоже весьма убог, да и сам Spark имеет весьма специфические ограничения по объемам данных. По факту, из open source SQL on Hadoop на текущий момент есть Hive (и поверх него накрученные всякие примочки), есть Impala у Cloudera (неуправляемая, потому что не интегрирована с YARN) и есть HAWQ/HDB у Hortonworks; и Hive, даже с LLAP, по сравнению с HAWQ - см. выше про "тоже автомобиль", да и Impala ему тоже почти везде проигрывает. Хотя у Hive и Impala/HAWQ разные области применения и они вполне могут сосуществовать.

Но главное, на самом деле, то, что SQL, в любой реализации - не родной для Hadoop и никогда не будет столь же эффективен, как в системах, под него специально заточенных. Стоунбрэкер об этом писал уже давно, особо добавить с тех пор так и нечего. Просто очень хочется выкинуть дорогой Оракл|DB2|Netezza|Teradata|[...] и заменить на "дешёвый" Hadoop и чтоб при этом и функционал остался весь и SLA чтоб выполнялись как раньше и расходы на персонал обслуживающий чтоб сократить раз в несколько... Ну и, разумеется, срабатывает эффект молотка в руке.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566267
master_yoda
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bobby Z.Кроме поддержки скрещенных решений можно предлагать свои механизмы по размызванию нагрузки, что Оракл и сделал с его sharding architecture. Правда мне неизвестны реальные примеры использования.
Задумка очень хорошая, но еще в зародыше. Допилят в 19ой или 20ой версии, ибо спрос есть. Соответственно в 19-20м будут пробовать и 20-22 внедрять.


dbpatchAlexander Ryndindbpatch,
Там помимо hcc довольно много всего...
к примеру?
Весь комплект собранный одним вендором, не надо собирать представителей всего чего есть в инфраструктуре для анализа проблем типа Oracle+RedHat+Brocade+Cisco+EMC+HDS и каждый говорит что у него всё работает.

Вы забыли еще про IORM.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566276
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bobby Z.dbms_photoshopУже есть SQL engines
Spark SQL
Impala
Hive
Tez
... что еще портировать?
Всё перечисленное как-то неудобно называть SQL engines в контексте Oracle, MSSQL, DB2 и даже Postgres. :) Ну, примерно, как называть Запорожец или Москвич "тоже автомобиль" в одном ряду с Тесла и МБ, указывая на наличие четырёх колёс, двигателя, трансмиссии, педалей, руля и способности самостоятельно передвигаться с места на место.Вместо своих субъективных ощущений про удобство и взятых с потолка сравнениях лучше говорить конкретно.
Если ты почитал презенташки и приобрел некоторое впечатление - для тебя оно может и ценно, а для других никакого смысла не несет.
Я за последние пару лет реализовал достаточно много ETL на Hive, Spark, Impala и могу сказать, что базовые возможности SQL весьма неплохо реализованы, а главное разработчик волен дополить трансформацию или даже синтаксическую конструкцию если очень захочется.
Bobby Z.Ну и потом, по факту, Tez - вообще не про SQLTez это фреймворк для выполнения DAG, SQL порождает DAG.
DAG можно рассматривать как аналогию плана для запросов в Оракле.
Тут ( 20997214 ) я расписывал немного для старта, но ты конечно все это знаешь.
Bobby Z.Hive не понимает SQL, а понимает его ограниченное подмножество под названием HiveQL, Spark SQL тоже весьма убогОчередное бла бла.
Приведи конкретную бизнес задачу, где ты столкнулся с убогостью SQL в хадуп.
Bobby Z.сам Spark имеет весьма специфические ограничения по объемам данных.Почитай про driver-memory, executor-memory и прочее. Глядишь изменится картина про "специфические ограничения".
Bobby Z. По факту, из open source SQL on Hadoop на текущий момент есть Hive (и поверх него накрученные всякие примочки), есть Impala у Cloudera (неуправляемая, потому что не интегрирована с YARN) и есть HAWQ/HDB у Hortonworks; и Hive, даже с LLAP, по сравнению с HAWQ - см. выше про "тоже автомобиль", да и Impala ему тоже почти везде проигрывает. Хотя у Hive и Impala/HAWQ разные области применения и они вполне могут сосуществовать.Управляемость и стабильность Импалы можно заметно повысить ( 20818945 ).
Bobby Z.Но главное, на самом деле, то, что SQL, в любой реализации - не родной для Hadoop и никогда не будет столь же эффективен, как в системах, под него специально заточенных. Стоунбрэкер об этом писал уже давно, особо добавить с тех пор так и нечего. Просто очень хочется выкинуть дорогой Оракл|DB2|Netezza|Teradata|[...] и заменить на "дешёвый" Hadoop и чтоб при этом и функционал остался весь и SLA чтоб выполнялись как раньше и расходы на персонал обслуживающий чтоб сократить раз в несколько... Ну и, разумеется, срабатывает эффект молотка в руке.Оракл - RDBMS, Hadoop - платформа для распределенной обработки данных, поддерживающая несколько движков для выполнения SQL и несколько синтаксисов.
О каком родстве речь?
Ты же в курсе что такое "уровень абстракции"?

PS. Вообще про движки уже тоже подробно рассписывал ( 20588925 ).
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566314
Bobby Z.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopЯ за последние пару лет реализовал достаточно много ETL на Hive, Spark, Impala и могу сказать, что базовые возможности SQL весьма неплохо реализованы, а главное разработчик волен дополить трансформацию или даже синтаксическую конструкцию если очень захочется.
Это же стокгольмский синдром. Разработчик, если очень захочется, волен запилить вообще всё своё и никакой хадуп ему нафиг не упёрся. Многие так и делают, кстати, по массе причин. Это не аргумент в пользу. YARN, к примеру, включает пример distributed shell - означает ли это, что если я хочу выполнять distributed shell команды, то мне обязательно надо развернуть хадуп и делать это через YARN, или всё-таки можно по старинке, через SSH или через специально для этого написанные automation tools типа capistrano или puppet?
dbms_photoshopTez это фреймворк для выполнения DAG, SQL порождает DAG.
DAG можно рассматривать как аналогию плана для запросов в Оракле.
Кроме SQL больше ничего DAG не порождает? Tez разбирает SQL и порождает DAG? Необходим ли Tez для выполнения SQL в хадуп? Вывод: Tez имеет к SQL примерно такое же отношение, как и операционная система.
dbms_photoshopBobby Z.Hive не понимает SQL, а понимает его ограниченное подмножество под названием HiveQL, Spark SQL тоже весьма убогОчередное бла бла.
Приведи конкретную бизнес задачу, где ты столкнулся с убогостью SQL в хадуп.Да вот, собственно, вынести очень сложную гибридную систему из Exadata и занести её в Hadoop, сохранив весь функционал и SLA и допилив ещё сверху всякий machine learning. Ну дорого очень на Exa. SQL же везде одинаковый, какая разница Оракл это или Hive, правда? Я не утрирую, кстати, вот реально так задача ставится и деньги уже заплачены, и немалые, так что "не рассуждать! выполнять!" И фиг докажешь, что молоток не годится для запуска спутников, даже если он очень большой и тяжёлый и, в теории, может придать необходимое ускорение, если им хорошенько уе..ть.
dbms_photoshopОракл - RDBMS, Hadoop - платформа для распределенной обработки данных, поддерживающая несколько движков для выполнения SQL и несколько синтаксисов.
О каком родстве речь?См. выше реальный бизнес кейс. Уровень абстракции самый высокий: и там и там SQL, значит одно можно прозрачно заменить на другое, возражения не принимаются - деньги уже получены и потрачены. И вообще, ты (я) просто убеждённый ораклоид и консерватор, сопротивляешься всему новому. =)
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566326
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bobby Z.dbms_photoshopО каком родстве речь?См. выше реальный бизнес кейс. Уровень абстракции самый высокий: и там и там SQL, значит одно можно прозрачно заменить на другое, возражения не принимаются - деньги уже получены и потрачены. И вообще, ты (я) просто убеждённый ораклоид и консерватор, сопротивляешься всему новому. =)Предлагаю вернуться к тому, с чего продложился диалог.
dbms_photoshopBobby Z.Наваять такой SQL engine в open source с нуля проблематично, но можно попытаться портировать что-то уже работающее и проверенное временемУже есть SQL enginesЯ это понял как портировать SQL движок, а не приложение.
Итак, когда идет речь про обработку на SQL есть синтаксис (диалект) SQL поддерживаемый конкретной реализацией и есть движок , собственно выполняющий запросы.

Есть стандарт SQL, есть его реализации для конкретных СУБД.
Возьмем Оракл, тут помимо стандарта добавлено connect by, model, pattern matching .
Возьмем MSSQL... а тут ничего нового не добавлено, есть только вольности в реализации описанного.

Возьмем SQL (Impala), тут есть все, что в стандарте включая соединения, подзапросы, агрегатные и аналитические функции, в Hive есть grouping sets (в Impala это вопрос времени), собственно чего нет из стандарта - это recursive CTE, но вряд ли вменяемый архитектор будет это считать принципиальным ограничением - это раз и recursive CTE имеет крайне мало смысла при отсутствии индексов - это два (так что я и не жду его появления в обозримой перспективе).

Если углубляться в тонкости, в Impala сильно ограничены возможности указания windowing_clause в аналитических функциях. Конкретный пример был в Пятничная задачка. Смотрим назад. . Но если воспользоваться вспомогательной структурой - очередью, то не SQL решение опередит аналитику (для Оракла реализация 20559260 , для Спарк было в моей изысканной дискуссии с Yo - 20829512 ).

Но говоря про тонкости использования windowing_clause стоит заметить что в том же MSSQL оно крайне кастрировано по сравнению с Ораклом, а во-вторых в масштабном проекте на Орале где я работал до hadoop были десятки или сотни мест где используеются аналитические функции и только два (!) места где было специфическое windowing_clause. То есть это тоже не та функциональность, которая критична для типичного хранилища.

Я могу продолжать, хотя, вряд ли, кто-то будет в это глубоко вникать, но по факту нельзя сказать что синтаксис SQL диалектов для hadoop как-то уступает в возможностях тому же MSSQL. В сравнении с Ораклом отсутствует выделенное выше курсивом, но это экзотика и для типичного ETL не нужно, а для работы с иерахиями, spreadsheet calculations и pattern matching просто используются не SQL подходы и всё.

Возвращаясь к движкам, сама мысль портировать execution engine работающий на одном экземпляре для работы на кластере абсурдна, у них принципиально разная архитектура.

Теперь перейдем к твоему бизнес кейсу
Bobby Z.вынести очень сложную гибридную систему из Exadata и занести её в Hadoop, сохранив весь функционал и SLA и допилив ещё сверху всякий machine learningВот тут надо желающим выноса донести прежде всего, что
1) в hadoop данные immutable by design. То есть никаких update/delete.
2) система не транзакционна
3) подходит для крупных batch processing, если много мелких транзакций, то все быстро ляжет
* пытливые умы могут быстро нагуглить Hive Transactions и Hive DML - но это все баловство ни о чем.
Так вот, если три описанных фактора не критичны, то можно говорить о возможности и/или целесообразности миграции дальше.
А ограничения SQL - это несерьезно.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566360
Bobby Z.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopВсё пропущено, всё так, а даже если не всё так, то лень спорить.

Возвращаясь к движкам, сама мысль портировать execution engine работающий на одном экземпляре для работы на кластере абсурдна, у них принципиально разная архитектура.Это ты про что? Если про HAWQ, то это Greenplum, который вполне себе MPP. И архитектура вовсе не столь уж принципиально разная: достаточно посмотреть на один экземпляр, как на вырожденный кластер из одного узла с отключенными механизмами, необходимыми для работы невырожденного кластера, и окажется, что архитектура практически ничем не отличается.
...
Рейтинг: 0 / 0
Что почитать насчёт обращения с big data?
    #39566708
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bobby Z.dbms_photoshopВсё пропущено, всё так, а даже если не всё так, то лень спорить.

Возвращаясь к движкам, сама мысль портировать execution engine работающий на одном экземпляре для работы на кластере абсурдна, у них принципиально разная архитектура.Это ты про что? Если про HAWQ, то это Greenplum, который вполне себе MPP. И архитектура вовсе не столь уж принципиально разная: достаточно посмотреть на один экземпляр, как на вырожденный кластер из одного узла с отключенными механизмами, необходимыми для работы невырожденного кластера, и окажется, что архитектура практически ничем не отличается.Я как-то пропустил мысль, что ты говоришь про портирование движка именно MPP.
Impala разрабатывалась изначально с учетом особенностей HDFS, а HAWK может представлять собой порт с учетом этой специфики (то есть изначально Greenplum проектировался с кардинально иным подходом к data distribution).
Поживем увидим, конкуренция между Cloudera Impala или Hortonworks HAWQ - это хорошо, имхо.
...
Рейтинг: 0 / 0
40 сообщений из 40, показаны все 2 страниц
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Что почитать насчёт обращения с big data?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]