Что почитать насчёт обращения с big data? / Oracle

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Oracle [игнор отключен] [закрыт для гостей] / Что почитать насчёт обращения с big data?

40 сообщений из 40, показаны все 2 страниц

все

Что почитать насчёт обращения с big data?

#39565276

Лиса Алиса

Гость

Как создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.

...

Рейтинг:

0 / 0

06.12.2017, 17:20

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565281

DВА

Участник

Сообщения: 4 743

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

06.12.2017, 17:28

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565290

env

Участник

Откуда: Россия, Москва

Сообщения: 6 692

Рейтинг: 0 / 0

DВА,

Так в 18-й версии же всё само автонастроится и будет идеально работать.

...

Рейтинг:

0 / 0

06.12.2017, 17:35

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565309

Лиса Алиса

Гость

DВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?

...

Рейтинг:

0 / 0

06.12.2017, 17:50

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565320

DВА

Участник

Сообщения: 4 743

Рейтинг: 0 / 0

Лиса АлисаDВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?
Ну после Кайта приличным тоном считается читать Милсапа
там правда тоже вода, но мозги систематизирует )
осилите Милсапа, переходите на Льюиса

...

Рейтинг:

0 / 0

06.12.2017, 18:00

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565332

rf_mail

Участник

Сообщения: 104

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

06.12.2017, 18:10

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565369

Тролин

Участник

Откуда: БСП

Сообщения: 513

Рейтинг: 0 / 0

Скоро выйдут 18с (12.2.0.3)и 19с (12.2.0.4)...в каждой улучшений и автоматизаций на 1500%....админы для менеджеров не нужны. Зп помно снижать вопрос в том что на рынке технарей уже не остается

...

Рейтинг:

0 / 0

06.12.2017, 19:06

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565370

Тролин

Участник

Откуда: БСП

Сообщения: 513

Рейтинг: 0 / 0

Это описание страшного сна

...

Рейтинг:

0 / 0

06.12.2017, 19:07

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565378

Bobby Z.

Участник

Откуда: NJ USA

Сообщения: 349

Рейтинг: 0 / 0

Лиса АлисаКак создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, Variety (в последнее время, с подачи IBM, ещё добавляют Veracity). Реляционные БД, в целом, не решают последние два V, а многие спотыкаются ещё и на первых двух. А Вы спрашиваете про оптимизацию производительности, причём, как я понимаю, в контексте конкретной RDBMS: Oracle. Начинайте с Concepts, потом, как коллеги рекомендуют, Кэри Миллсап, Джонатан Льюис, Коннор Макдоналд, Танел Подер, Чарльз Хупер, их блогроллы,... И - эксперименты, эксперименты, эксперименты. Пробовать и проверять на практике всё, что узнали, постоянно задавать себе вопросы "а как это работает?" и "а что, если...?" и самостоятельно находить на них ответы, в документации, или в книгах, блогах, или, наконец, экпериментально, а если не получается найти, то спрашивать у тех, у кого получилось.

А за конкретными правилами - это к Бурлесону. :)

...

Рейтинг:

0 / 0

06.12.2017, 19:20

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565394

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Bobby Z.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, VarietyМеня тоже поразило как все оказались на одной волне с ТС.

В наших краях big data - это экосистема hadoop.
Соотетсвенно, если в названии позиции есть big data, то речь гарантированно про hadoop.

А то доходит до абсурда, когда мне знакомый из России говорит "я устроился разработчиком C# на big data project",
по факту это оказалось C# + MSSQL, а big data использовано ибо им кажется что у них много данных.

...

Рейтинг:

0 / 0

06.12.2017, 20:04

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565396

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Лиса АлисаDВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?oracle vldb best practices

...

Рейтинг:

0 / 0

06.12.2017, 20:06

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565449

DВА

Участник

Сообщения: 4 743

Рейтинг: 0 / 0

dbms_photoshop,
ну если уже докапываться "до буквы закона", то биг дата это все-таки не непересекающийся с ораклом ни одним местом хадуп, а Oracle Big Data Appliance )

...

Рейтинг:

0 / 0

06.12.2017, 22:47

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565503

Bobby Z.

Участник

Откуда: NJ USA

Сообщения: 349

Рейтинг: 0 / 0

DВАне непересекающийся с ораклом ни одним местом хадупНу, как бы уже давно пересекающийся через Big Data SQL... И дальше будет только больше пересечений, потому что Hadoop - это, конечно, модно и круто и у всех ассоциируется с big data, но при этом всем хочется SQL, причём не рудиментарный HiveQL, а полноценный, сравнимый по возможностям с Oracle или Transact-SQL. Ну потому что ничего лучше SQL для декларативной работы с множествами пока так и не придумали (хоть Баба-Яга Крис Дейт и против). Наваять такой SQL engine в open source с нуля проблематично, но можно попытаться портировать что-то уже работающее и проверенное временем. И такие попытки есть, и весьма многообещающие: HAWQ, он же Pivotal Greenplum on Hadoop. Greenplum, в свою очередь, основан на PostgreSQL, который среди open source RDBMS, пожалуй, единственный достойный конкурент Ораклу. Так что с этой стороны конвергенция идёт вовсю. Вендорам традиционных RDBMS, чтобы не потерять рынок, ничего другого не остаётся, как поддерживать популярные гетерогенные хранилища данных наравне со своими собственными, что они все наперегонки и делают (Oracle Big Data SQL, Microsoft Polybase, IBM BigInsights).

...

Рейтинг:

0 / 0

07.12.2017, 05:12

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565694

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

DВАбиг дата это все-таки не непересекающийся с ораклом ни одним местом хадупВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Подер тоже захотел откусить кусок пирога и даже основал компанию Gluent, которая предоставляет скрещенные решения на Hadoop + Oracle - Connecting Hadoop and Oracle .
И сделано у него чуть лучше и гибче чем в поставке из коробки, но для меня не до конца понятно на что он надеется.
В лучшем случае Оракл это купит, в худшем - сделает то же самое уже со своими улучшениями.

Просто поначалу у многих была истерия по миграции всех RDBMS на здооровенные hadoop кластеры состоящие из "commodity hardware" или в облако, потом стало приходить понимание, что даже как хранилище с возможностью модицикаций данных для оперативного дня hadoop не очень (правда есть достаточно умные люди, которые все еще надеятся реализовать модификацию данных в hadoop). Все идет как раз к скрешенным решениям когда, скажем, неделя в Оракле, а остальное оффлоадится в хадуп.
DВАOracle Big Data ApplianceЭто, наверное, первым делом приходит на ум тому, кто начинает утро с чтения Оракловых маркетинговых буклетов.

...

Рейтинг:

0 / 0

07.12.2017, 11:46

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565718

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Bobby Z.при этом всем хочется SQL, причём не рудиментарный HiveQL, а полноценный, сравнимый по возможностям с Oracle или Transact-SQLА всем это кому?
HiveQL практически ничем не уступает microsoft диалекту SQL.
Есть аналитические функции, grouping sets, нет разве что CTE (так оно не очень и надо - для этих целей другие инструменты).
А то, что есть некоторые ограничения на подзапросы или предикаты, так это даже плюс.
Ибо пишущий должен немного понимать как работает инструмент, чтоб не делать ложных выводов.
Вот Impala поддерживает OR-предикаты соединения в отличие от Hive и бизнес аналитик пишет соединение двух табличек,
а потом ждет окончания выполнения весь день ибо OR - это только nested loops при невозможности сделать concatenation.
И пока запрос выполняется он еще создает шум и рассказывает окружающим какой Impala отстой.
Bobby Z.Ну потому что ничего лучше SQL для декларативной работы с множествами пока так и не придумалиВ 95% случаев таки лучше, для остальных 5% есть Spark.
Не понятно такое зацикливание на SQL engine, многие фишки не имеют смысла ибо нет инексов (те же коррелированные скаляры кооторые не могут быть unnested).
Все развивается вполне логично и если есть желание - можно допилить свою query transformation - всё открыто . Это не Оракл.
Bobby Z.попытаться портировать что-то уже работающее и проверенное временемУже есть SQL engines
Spark SQL
Impala
Hive
Tez
... что еще портировать?
Это выглядит как попытки перешедшего с MSSQL на Oracle портировать свои best practices со временными таблицами.
Надо понимать отличия в архитектуре и что там уместно, а что нафиг не надо.

...

Рейтинг:

0 / 0

07.12.2017, 12:06

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565730

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Bobby Z.Вендорам традиционных RDBMS, чтобы не потерять рынок, ничего другого не остаётся, как поддерживать популярные гетерогенные хранилища данных наравне со своими собственными, что они все наперегонки и делают (Oracle Big Data SQL, Microsoft Polybase, IBM BigInsights).Кроме поддержки скрещенных решений можно предлагать свои механизмы по размызванию нагрузки, что Оракл и сделал с его sharding architecture.
Правда мне неизвестны реальные примеры использования.

...

Рейтинг:

0 / 0

07.12.2017, 12:11

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565794

DВА

Участник

Сообщения: 4 743

Рейтинг: 0 / 0

dbms_photoshopВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))

...

Рейтинг:

0 / 0

07.12.2017, 13:10

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565812

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

DВАdbms_photoshopВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.

...

Рейтинг:

0 / 0

07.12.2017, 13:31

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565835

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

07.12.2017, 13:57

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565845

DВА

Участник

Сообщения: 4 743

Рейтинг: 0 / 0

dbms_photoshopDВАпропущено...

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.

«Oracle Big Data Appliance является превосходным выбором для клиентов, которые хотят работать с полным комплексом передовых Hadoop-технологий Cloudera. Это более экономичный и быстрый в развертывании вариант в сравнении с созданием кластера собственными силами, — заявил Майк Олсон (Mike Olson), основатель, главный статег и председатель совета директоров компании Cloudera. — Что касается выполнения запросов к данным в Hadoop, мы отметили огромную потребность клиентов в SQL. Именно поэтому Cloudera разработала решение Impala, которое Oracle включает в платформу Oracle Big Data Appliance, чтобы предоставить клиентам возможность легко и эффективно выполнять запросы к данным в Hadoop с использованием SQL. Клиентам, которым требуется выполнять запросы и анализировать данные, размещенные в Hadoop и Oracle Database, решение Oracle Big Data SQL предлагает поддержку HDFS, позволяет использовать существующие навыки SQL и политики безопасности, а также упрощает интеграцию Hadoop с существующей инфраструктурой Oracle».
:)
Кстати тоже до сих пор не понимаю, почему бы ПО с селов экзадаты не распространять без привязки к самой экзадате ) Кому нада - воссоздал себе экзадату на парочке домашних ноутов ))
Но жирафф большой ему видней ))

...

Рейтинг:

0 / 0

07.12.2017, 14:02

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565873

dbpatch

Участник

Сообщения: 1 241

Рейтинг: 0 / 0

dbms_photoshopBobby Z.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, VarietyМеня тоже поразило как все оказались на одной волне с ТС.

В наших краях big data - это экосистема hadoop.
Соотетсвенно, если в названии позиции есть big data, то речь гарантированно про hadoop.

А то доходит до абсурда, когда мне знакомый из России говорит "я устроился разработчиком C# на big data project",
по факту это оказалось C# + MSSQL, а big data использовано ибо им кажется что у них много данных.

в вашем колхозе - да, это наверное гарантированно.
а так - полезно иногда читать не только ленту.ру газету Сельскую Жизнь, но быть хоть не много в курсе, как на самом деле обстоят дела.

ну или Технику Молодежи почитать, тоже сгодится, сойти за умного:
https://habrahabr.ru/post/303802/

...

Рейтинг:

0 / 0

07.12.2017, 14:21

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565876

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

DВА,

Для того, чтобы обеспечить более высокий уровень сервиса нужно иметь меньшую энтропию, чем имеет самосбор (диски, флеш кэш, драйвера, ОС, firmware, файловая система и т.д.)...
Но для тех, у кого железо жестко зафиксировано - это печалька

...

Рейтинг:

0 / 0

07.12.2017, 14:23

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565885

dbpatch

Участник

Сообщения: 1 241

Рейтинг: 0 / 0

Alexander RyndinDВА,

Для того, чтобы обеспечить более высокий уровень сервиса нужно иметь меньшую энтропию, чем имеет самосбор (диски, флеш кэш, драйвера, ОС, firmware, файловая система и т.д.)...
Но для тех, у кого железо жестко зафиксировано - это печалька

самосборы бывают разные - кто-то на ноутах себе RAC собирает, а кто-то инфраструктуру в виде готовых контейнеров поставляет, или датацентры целиком вместе с DevOpsами и прочим.

вот последним фичи екзадата не помешали бы, чисто в софте - ценного там только ее компрессия, которая якобы только жутко аппаратная, на самом деле это лишь софтовая реализация + нетехнический hardware vendor-lock.

но из-за HCC компрессии заставлять покупать железно только одного производителя - это как-то... неконкуретно, что-ли..

...

Рейтинг:

0 / 0

07.12.2017, 14:30

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565896

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

dbpatch,

Там помимо hcc довольно много всего...

...

Рейтинг:

0 / 0

07.12.2017, 14:39

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565907

dbpatch

Участник

Сообщения: 1 241

Рейтинг: 0 / 0

Alexander Ryndindbpatch,

Там помимо hcc довольно много всего...

к примеру?

all flash storage, infiniband network - не смешно, такое могут не только они, а порой и получше.
storage offloading - фича, скажем так, спорная, нужно очень хорошо постараться, чтоб увидеть ее бенефит, для generic case разницы и вовсе особой нет.

а больше там и нет ничего такого

лучше бы они допилили до ума свои external tables, чтоб можно было задавать всякие аргументы-параметры уровня сессии для препроцессора, не через, простите, ......у, т.е. грязные хаки с parent process id

то что они там в 12.2 сделали - это совсем мимо кассы.

хотя это уже не про экзадата

...

Рейтинг:

0 / 0

07.12.2017, 14:50

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39565909

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Alexander Ryndin1) Там Cloudera Data Hub Edition входит в поставкуНу у хадупа три основных вендора mapr cloudera hortonworks и все они любезно помогут все установить и настроить за денюжку на кластере заказчика.
Alexander Ryndin2) Если брать сравнимое железо от других вендоров (ну т.е. не на горбушке россыпью), то цена будет сравнимаЕсть прямо противоположное мнение, что экономия огромна. Но конкретные цифры вряд ли кто-то в открытый доступ вывалит.
Alexander Ryndin3) Oracle Big Data Appliance обычно берут, когда Hadoop становится достаточно критичным для бизнесаА изолированный хадуп - это просто поиграться? :)
Alexander Ryndin4) У Oracle на данный момент лучший ПАК для Big Data (по оценке Forrester)Что мы имеем по факту
full complement of software components, including Cloudera Enterprise Data Hub Edition, Oracle NoSQL Database CE, Oracle R Distribution, Oracle Linux, Oracle Data Integrator, Oracle Loader for Hadoop, Oracle R Advanced Analytics for Hadoop, and Oracle Spatial and Graph
* Oracle R это, конечно, хорошо. Только пожалуй R во всем хуже python кроме того, что на нем реализован ряд экслюзивных алгоритмов (которые потихоньку портируются).
Динамика достаточно красноречива ( https://stackoverflow.blog/2017/09/06/incredible-growth-python/).
Речь про цивилизованный мир (high-income countries).

* Oracle Data Integrator... вполне понятно, что Оракл пытается это продвигать. Но для загрузки/выгрузки каждый использует то, что знает лучше или вообще пишет свой велосипед.
* Для Spatial and Graph есть opensource аналоги, то есть здесь тоже должен быть очень важный аргумент, чтоб использовать Оракловое - например наличие уже ораклового решения которое частично выносится в хадуп. :)
В сухом остатке Оракл может и засунул в коробку больше чем кто либо, вот только не очень понятно для кого это всё.

...

Рейтинг:

0 / 0

07.12.2017, 14:52

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566040

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

dbpatch,

1) storage offloading отличная штука. Но она для отчетов в оперативных базах и для DWH. Для чистого OLTP редко дает преимущество. Позволяет таскать данные в Buffer Cache, а фильтровать их на уровне SAN. Не все фильтры работают на уровне SAN, но для отчетов это может сократить объем данных в разы-порядки.
2) flash cache (это не all flache) - он есть и в обычных дисковых. Отлично работает для OLTP, поскольку прозрачно и без дополнительного управления кэширует горячую часть базы. Также хорошо работает для ODS/Real Time DWH. Позволяет одновременно полным потоком лить данные в хранилище и параллельно анализировать их. При этом нагрузки не пересекаются. Опять же это полностью прозрачно работает
3) storage index. Стреляет нечасто, но когда стреляет очень круто работает. Позволяет fullscan не сканировать все данные, а сканировать только блоки данных, в которых данные подходят под условие.

Я не пытаюсь вас убедить покупать Exadata. Лишь делюсь рельными кейсами, где это действительно сильно стреляло. Exadata плохой пример для маленьких базенок размером 100 Мб.

...

Рейтинг:

0 / 0

07.12.2017, 16:31

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566057

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

DВАOracle Big Data Appliance является превосходным выбором для клиентов, которые хотят работать с полным комплексом передовых Hadoop-технологий ClouderaЭто не отвечает на вопрос зачем вообще хадуп если есть такая железка с Ораклом.
Можно перечислить достаточно экзотические причины чтоб обосновать своё хотение работать с хадуп в таком случае
1.
Задействовать уже реализованные фреймфорки из хадупа для работы, скажем, с графами или анализа данных.
Ну или просто писать свою логику на Spark для параллельной обработки (которая на SQL не реализуема).
2.
Использовать особенности HDFS и хранения данных.
2.1 Воспользоваться тем, что хадуп позволяет анализировать данные в любом формате и даже натягивать таблицы на данные в любом формате (писать свои писать свои Serializer/Deserializer если не хватает имеющихся)
В Оракле тоже можно пытаться натянуть external table на что угодно, но это что угодно надо сначала размазать по узлам, чтоб обработка была распараллелена по аналогии с хадупом.
2.2 Имеюся ну просто огромные объемы и имеет смысл секционировать более чем по 2-м уровням.
При этом каждая под-под-под-секция будет реплицирована по узлам, хоть и представляет собо логически один файл.
В Оракле же секция (или под-секция) это сегмент, который хранится... или в экзадате можно сегмент размазать по разным нодам и читать и обрабатывать его во много потоков?
И главное помнить, что вся эта супер-пупер параллельность в хадупе реализована в ущерб транзакционности.

Это, как уже было замечено, достаточно экзотические случаи, где Оракл собсветнно и не конкурент.

Если же говорить о типичном пусть даже очень большом хранилище, то необходимость хадупа при наличии экзадаты очень сомнительна.
Хотя тут Оракл уступает нескольким конкурентам из-за отсутсвия true columnar формата.
(in-memory columnar 12c только в памяти, а hybrid columnar compression это костыль)

...

Рейтинг:

0 / 0

07.12.2017, 16:47

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566063

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

dbms_photoshopAlexander Ryndin1) Там Cloudera Data Hub Edition входит в поставкуНу у хадупа три основных вендора mapr cloudera hortonworks и все они любезно помогут все установить и настроить за денюжку на кластере заказчика.Могут. Но в деньги, которые платятся за Oracle BDA уже включена самая крутая редакция Cloudera. Я лишь говорю, что нужно яблоки с яблоками сравнивать. Hub Edition недешево стоит.
Ну и единое окно поддержки, когда ты вендору говоришь: херово работает, а дальше это его уже проблема найти узкое место (драйверы, настройки памяти, патч на cloudera, дохлый диск)
dbms_photoshopAlexander Ryndin2) Если брать сравнимое железо от других вендоров (ну т.е. не на горбушке россыпью), то цена будет сравнимаЕсть прямо противоположное мнение, что экономия огромна. Но конкретные цифры вряд ли кто-то в открытый доступ вывалит.У меня есть скупые заказчики, которые все считали. Не выходит там серьезной разницы.
У Oracle есть опубликованный документ
http://www.oracle.com/us/technologies/big-data/eng-systems-for-big-data-esg-wp-2852701.pdf
dbms_photoshopAlexander Ryndin3) Oracle Big Data Appliance обычно берут, когда Hadoop становится достаточно критичным для бизнесаА изолированный хадуп - это просто поиграться? :) А BDA тоже изолированный Hadoop. Вообще, 90% инсталляций Hadoop сейчас это поиграться. Про BDA я говорю то, что вижу. У меня перед глазами уже 3 заказчика, кто вышел в пром и задолбался с китайским XXXXX, затем купил BDA. Один из заказчиков прогнал тесты на commodity и на BDA. Impala на BDA работала значительно лучше. Просто там все изначального грамотно затюнено.
dbms_photoshopAlexander Ryndin4) У Oracle на данный момент лучший ПАК для Big Data (по оценке Forrester)Что мы имеем по факту
full complement of software components, including Cloudera Enterprise Data Hub Edition, Oracle NoSQL Database CE, Oracle R Distribution, Oracle Linux, Oracle Data Integrator, Oracle Loader for Hadoop, Oracle R Advanced Analytics for Hadoop, and Oracle Spatial and GraphВсе это кроме CDH Hub Edition не входит по стоимости в BDA и является опцией (ну кроме R, компилированного с помощью коммерческих компиляторов). Никто вам их не навязывает.
dbms_photoshop* Oracle R это, конечно, хорошо. Только пожалуй R во всем хуже python кроме того, что на нем реализован ряд экслюзивных алгоритмов (которые потихоньку портируются).Религиозный спор. Не охота про это спорить. Кто-то любит суп, а кто-то борщ.

...

Рейтинг:

0 / 0

07.12.2017, 16:49

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566090

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Alexander Ryndin,

Аргументы понятны.
Пользуясь случаем, интересно, есть успешные внедрения скрещивания GoldenGate + Kafka?

...

Рейтинг:

0 / 0

07.12.2017, 17:14

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566125

dbpatch

Участник

Сообщения: 1 241

Рейтинг: 0 / 0

Alexander RyndinЯ не пытаюсь вас убедить покупать Exadata. Лишь делюсь рельными кейсами, где это действительно сильно стреляло. Exadata плохой пример для маленьких базенок размером 100 Мб.

звучит как-то странно. я ведь говорил про HCC не из соображений "прочитал про него в white list и вот что я думаю".
мы вполне погоняли наши case и на exadata в разных вариантах, и на сопоставимом железе рядом. используется на практике и то и другое, где нагрузка позволяет.

а по факту из exadata реально нужен лишь HCC, т.е. - отключение чудо байта в коде.
по остальным опциям выигрыш считается не в разы, как с HCC, а на проценты (хотя да, иногда многие десятки оных), а проценты можно и потерпеть :)

речь идет про конечный результат, затраты времени по его построению.

но обосновывать exadata лишь наличием программной фичи columar compression, без возможности выбора альтернатив - для любого менеджмента не слишком убедительно.

хотя не сравнить, конечно, с обоснованием нетеззы...

...

Рейтинг:

0 / 0

07.12.2017, 17:52

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566137

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

dbms_photoshopAlexander Ryndin,

Аргументы понятны.
Пользуясь случаем, интересно, есть успешные внедрения скрещивания GoldenGate + Kafka?в России препроды только. За границей много

...

Рейтинг:

0 / 0

07.12.2017, 18:09

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566164

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

dbpatch,

А тестировали с помощью Oracle или сами? Вообще, конечно, не на каждой задаче стреляет. Бывают случаи, когда PL/SQL или очень специфические схемы данных с глубокой вложенностью запросов...

...

Рейтинг:

0 / 0

07.12.2017, 18:42

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566257

Bobby Z.

Участник

Откуда: NJ USA

Сообщения: 349

Рейтинг: 0 / 0

dbms_photoshopУже есть SQL engines
Spark SQL
Impala
Hive
Tez
... что еще портировать?
Всё перечисленное как-то неудобно называть SQL engines в контексте Oracle, MSSQL, DB2 и даже Postgres. :) Ну, примерно, как называть Запорожец или Москвич "тоже автомобиль" в одном ряду с Тесла и МБ, указывая на наличие четырёх колёс, двигателя, трансмиссии, педалей, руля и способности самостоятельно передвигаться с места на место. Ну и потом, по факту, Tez - вообще не про SQL, Hive не понимает SQL, а понимает его ограниченное подмножество под названием HiveQL, Spark SQL тоже весьма убог, да и сам Spark имеет весьма специфические ограничения по объемам данных. По факту, из open source SQL on Hadoop на текущий момент есть Hive (и поверх него накрученные всякие примочки), есть Impala у Cloudera (неуправляемая, потому что не интегрирована с YARN) и есть HAWQ/HDB у Hortonworks; и Hive, даже с LLAP, по сравнению с HAWQ - см. выше про "тоже автомобиль", да и Impala ему тоже почти везде проигрывает. Хотя у Hive и Impala/HAWQ разные области применения и они вполне могут сосуществовать.

Но главное, на самом деле, то, что SQL, в любой реализации - не родной для Hadoop и никогда не будет столь же эффективен, как в системах, под него специально заточенных. Стоунбрэкер об этом писал уже давно, особо добавить с тех пор так и нечего. Просто очень хочется выкинуть дорогой Оракл|DB2|Netezza|Teradata|[...] и заменить на "дешёвый" Hadoop и чтоб при этом и функционал остался весь и SLA чтоб выполнялись как раньше и расходы на персонал обслуживающий чтоб сократить раз в несколько... Ну и, разумеется, срабатывает эффект молотка в руке.

...

Рейтинг:

0 / 0

07.12.2017, 21:21

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566267

master_yoda

Участник

Сообщения: 95

Рейтинг: 0 / 0

Bobby Z.Кроме поддержки скрещенных решений можно предлагать свои механизмы по размызванию нагрузки, что Оракл и сделал с его sharding architecture. Правда мне неизвестны реальные примеры использования.
Задумка очень хорошая, но еще в зародыше. Допилят в 19ой или 20ой версии, ибо спрос есть. Соответственно в 19-20м будут пробовать и 20-22 внедрять.

dbpatchAlexander Ryndindbpatch,
Там помимо hcc довольно много всего...
к примеру?
Весь комплект собранный одним вендором, не надо собирать представителей всего чего есть в инфраструктуре для анализа проблем типа Oracle+RedHat+Brocade+Cisco+EMC+HDS и каждый говорит что у него всё работает.

Вы забыли еще про IORM.

...

Рейтинг:

0 / 0

07.12.2017, 21:45

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566276

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Bobby Z.dbms_photoshopУже есть SQL engines
Spark SQL
Impala
Hive
Tez
... что еще портировать?
Всё перечисленное как-то неудобно называть SQL engines в контексте Oracle, MSSQL, DB2 и даже Postgres. :) Ну, примерно, как называть Запорожец или Москвич "тоже автомобиль" в одном ряду с Тесла и МБ, указывая на наличие четырёх колёс, двигателя, трансмиссии, педалей, руля и способности самостоятельно передвигаться с места на место.Вместо своих субъективных ощущений про удобство и взятых с потолка сравнениях лучше говорить конкретно.
Если ты почитал презенташки и приобрел некоторое впечатление - для тебя оно может и ценно, а для других никакого смысла не несет.
Я за последние пару лет реализовал достаточно много ETL на Hive, Spark, Impala и могу сказать, что базовые возможности SQL весьма неплохо реализованы, а главное разработчик волен дополить трансформацию или даже синтаксическую конструкцию если очень захочется.
Bobby Z.Ну и потом, по факту, Tez - вообще не про SQLTez это фреймворк для выполнения DAG, SQL порождает DAG.
DAG можно рассматривать как аналогию плана для запросов в Оракле.
Тут ( 20997214 ) я расписывал немного для старта, но ты конечно все это знаешь.
Bobby Z.Hive не понимает SQL, а понимает его ограниченное подмножество под названием HiveQL, Spark SQL тоже весьма убогОчередное бла бла.
Приведи конкретную бизнес задачу, где ты столкнулся с убогостью SQL в хадуп.
Bobby Z.сам Spark имеет весьма специфические ограничения по объемам данных.Почитай про driver-memory, executor-memory и прочее. Глядишь изменится картина про "специфические ограничения".
Bobby Z. По факту, из open source SQL on Hadoop на текущий момент есть Hive (и поверх него накрученные всякие примочки), есть Impala у Cloudera (неуправляемая, потому что не интегрирована с YARN) и есть HAWQ/HDB у Hortonworks; и Hive, даже с LLAP, по сравнению с HAWQ - см. выше про "тоже автомобиль", да и Impala ему тоже почти везде проигрывает. Хотя у Hive и Impala/HAWQ разные области применения и они вполне могут сосуществовать.Управляемость и стабильность Импалы можно заметно повысить ( 20818945 ).
Bobby Z.Но главное, на самом деле, то, что SQL, в любой реализации - не родной для Hadoop и никогда не будет столь же эффективен, как в системах, под него специально заточенных. Стоунбрэкер об этом писал уже давно, особо добавить с тех пор так и нечего. Просто очень хочется выкинуть дорогой Оракл|DB2|Netezza|Teradata|[...] и заменить на "дешёвый" Hadoop и чтоб при этом и функционал остался весь и SLA чтоб выполнялись как раньше и расходы на персонал обслуживающий чтоб сократить раз в несколько... Ну и, разумеется, срабатывает эффект молотка в руке.Оракл - RDBMS, Hadoop - платформа для распределенной обработки данных, поддерживающая несколько движков для выполнения SQL и несколько синтаксисов.
О каком родстве речь?
Ты же в курсе что такое "уровень абстракции"?

PS. Вообще про движки уже тоже подробно рассписывал ( 20588925 ).

...

Рейтинг:

0 / 0

07.12.2017, 22:05

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566314

Bobby Z.

Участник

Откуда: NJ USA

Сообщения: 349

Рейтинг: 0 / 0

dbms_photoshopЯ за последние пару лет реализовал достаточно много ETL на Hive, Spark, Impala и могу сказать, что базовые возможности SQL весьма неплохо реализованы, а главное разработчик волен дополить трансформацию или даже синтаксическую конструкцию если очень захочется.
Это же стокгольмский синдром. Разработчик, если очень захочется, волен запилить вообще всё своё и никакой хадуп ему нафиг не упёрся. Многие так и делают, кстати, по массе причин. Это не аргумент в пользу. YARN, к примеру, включает пример distributed shell - означает ли это, что если я хочу выполнять distributed shell команды, то мне обязательно надо развернуть хадуп и делать это через YARN, или всё-таки можно по старинке, через SSH или через специально для этого написанные automation tools типа capistrano или puppet?
dbms_photoshopTez это фреймворк для выполнения DAG, SQL порождает DAG.
DAG можно рассматривать как аналогию плана для запросов в Оракле.
Кроме SQL больше ничего DAG не порождает? Tez разбирает SQL и порождает DAG? Необходим ли Tez для выполнения SQL в хадуп? Вывод: Tez имеет к SQL примерно такое же отношение, как и операционная система.
dbms_photoshopBobby Z.Hive не понимает SQL, а понимает его ограниченное подмножество под названием HiveQL, Spark SQL тоже весьма убогОчередное бла бла.
Приведи конкретную бизнес задачу, где ты столкнулся с убогостью SQL в хадуп.Да вот, собственно, вынести очень сложную гибридную систему из Exadata и занести её в Hadoop, сохранив весь функционал и SLA и допилив ещё сверху всякий machine learning. Ну дорого очень на Exa. SQL же везде одинаковый, какая разница Оракл это или Hive, правда? Я не утрирую, кстати, вот реально так задача ставится и деньги уже заплачены, и немалые, так что "не рассуждать! выполнять!" И фиг докажешь, что молоток не годится для запуска спутников, даже если он очень большой и тяжёлый и, в теории, может придать необходимое ускорение, если им хорошенько уе..ть.
dbms_photoshopОракл - RDBMS, Hadoop - платформа для распределенной обработки данных, поддерживающая несколько движков для выполнения SQL и несколько синтаксисов.
О каком родстве речь?См. выше реальный бизнес кейс. Уровень абстракции самый высокий: и там и там SQL, значит одно можно прозрачно заменить на другое, возражения не принимаются - деньги уже получены и потрачены. И вообще, ты (я) просто убеждённый ораклоид и консерватор, сопротивляешься всему новому. =)

...

Рейтинг:

0 / 0

08.12.2017, 00:55

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566326

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Bobby Z.dbms_photoshopО каком родстве речь?См. выше реальный бизнес кейс. Уровень абстракции самый высокий: и там и там SQL, значит одно можно прозрачно заменить на другое, возражения не принимаются - деньги уже получены и потрачены. И вообще, ты (я) просто убеждённый ораклоид и консерватор, сопротивляешься всему новому. =)Предлагаю вернуться к тому, с чего продложился диалог.
dbms_photoshopBobby Z.Наваять такой SQL engine в open source с нуля проблематично, но можно попытаться портировать что-то уже работающее и проверенное временемУже есть SQL enginesЯ это понял как портировать SQL движок, а не приложение.
Итак, когда идет речь про обработку на SQL есть синтаксис (диалект) SQL поддерживаемый конкретной реализацией и есть движок , собственно выполняющий запросы.

Есть стандарт SQL, есть его реализации для конкретных СУБД.
Возьмем Оракл, тут помимо стандарта добавлено connect by, model, pattern matching .
Возьмем MSSQL... а тут ничего нового не добавлено, есть только вольности в реализации описанного.

Возьмем SQL (Impala), тут есть все, что в стандарте включая соединения, подзапросы, агрегатные и аналитические функции, в Hive есть grouping sets (в Impala это вопрос времени), собственно чего нет из стандарта - это recursive CTE, но вряд ли вменяемый архитектор будет это считать принципиальным ограничением - это раз и recursive CTE имеет крайне мало смысла при отсутствии индексов - это два (так что я и не жду его появления в обозримой перспективе).

Если углубляться в тонкости, в Impala сильно ограничены возможности указания windowing_clause в аналитических функциях. Конкретный пример был в Пятничная задачка. Смотрим назад. . Но если воспользоваться вспомогательной структурой - очередью, то не SQL решение опередит аналитику (для Оракла реализация 20559260 , для Спарк было в моей изысканной дискуссии с Yo - 20829512 ).

Но говоря про тонкости использования windowing_clause стоит заметить что в том же MSSQL оно крайне кастрировано по сравнению с Ораклом, а во-вторых в масштабном проекте на Орале где я работал до hadoop были десятки или сотни мест где используеются аналитические функции и только два (!) места где было специфическое windowing_clause. То есть это тоже не та функциональность, которая критична для типичного хранилища.

Я могу продолжать, хотя, вряд ли, кто-то будет в это глубоко вникать, но по факту нельзя сказать что синтаксис SQL диалектов для hadoop как-то уступает в возможностях тому же MSSQL. В сравнении с Ораклом отсутствует выделенное выше курсивом, но это экзотика и для типичного ETL не нужно, а для работы с иерахиями, spreadsheet calculations и pattern matching просто используются не SQL подходы и всё.

Возвращаясь к движкам, сама мысль портировать execution engine работающий на одном экземпляре для работы на кластере абсурдна, у них принципиально разная архитектура.

Теперь перейдем к твоему бизнес кейсу
Bobby Z.вынести очень сложную гибридную систему из Exadata и занести её в Hadoop, сохранив весь функционал и SLA и допилив ещё сверху всякий machine learningВот тут надо желающим выноса донести прежде всего, что
1) в hadoop данные immutable by design. То есть никаких update/delete.
2) система не транзакционна
3) подходит для крупных batch processing, если много мелких транзакций, то все быстро ляжет
* пытливые умы могут быстро нагуглить Hive Transactions и Hive DML - но это все баловство ни о чем.
Так вот, если три описанных фактора не критичны, то можно говорить о возможности и/или целесообразности миграции дальше.
А ограничения SQL - это несерьезно.

...

Рейтинг:

0 / 0

08.12.2017, 01:51

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566360

Bobby Z.

Участник

Откуда: NJ USA

Сообщения: 349

Рейтинг: 0 / 0

dbms_photoshopВсё пропущено, всё так, а даже если не всё так, то лень спорить.

Возвращаясь к движкам, сама мысль портировать execution engine работающий на одном экземпляре для работы на кластере абсурдна, у них принципиально разная архитектура.Это ты про что? Если про HAWQ, то это Greenplum, который вполне себе MPP. И архитектура вовсе не столь уж принципиально разная: достаточно посмотреть на один экземпляр, как на вырожденный кластер из одного узла с отключенными механизмами, необходимыми для работы невырожденного кластера, и окажется, что архитектура практически ничем не отличается.

...

Рейтинг:

0 / 0

08.12.2017, 07:22

| Ответить | Цитировать | Написать

Что почитать насчёт обращения с big data?

#39566708

dbms_photoshop

Участник

Откуда: sqlmdx.net

Сообщения: 5 140

Рейтинг: 0 / 0

Bobby Z.dbms_photoshopВсё пропущено, всё так, а даже если не всё так, то лень спорить.

Возвращаясь к движкам, сама мысль портировать execution engine работающий на одном экземпляре для работы на кластере абсурдна, у них принципиально разная архитектура.Это ты про что? Если про HAWQ, то это Greenplum, который вполне себе MPP. И архитектура вовсе не столь уж принципиально разная: достаточно посмотреть на один экземпляр, как на вырожденный кластер из одного узла с отключенными механизмами, необходимыми для работы невырожденного кластера, и окажется, что архитектура практически ничем не отличается.Я как-то пропустил мысль, что ты говоришь про портирование движка именно MPP.
Impala разрабатывалась изначально с учетом особенностей HDFS, а HAWK может представлять собой порт с учетом этой специфики (то есть изначально Greenplum проектировался с кардинально иным подходом к data distribution).
Поживем увидим, конкуренция между Cloudera Impala или Hortonworks HAWQ - это хорошо, имхо.

...

Рейтинг:

0 / 0

08.12.2017, 15:42

| Ответить | Цитировать | Написать

40 сообщений из 40, показаны все 2 страниц

все

Форумы / Oracle [игнор отключен] [закрыт для гостей] / Что почитать насчёт обращения с big data?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?all=1&fid=52&tid=1884767]:	0ms
get settings:	7ms
get forum list:	9ms
check forum access:	2ms
check topic access:	2ms
track hit:	167ms
get topic data:	10ms
get forum data:	3ms
get page messages:	63ms
get tp. blocked users:	1ms
others:	210ms

total:	474ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы