Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Что почитать насчёт обращения с big data? / 25 сообщений из 40, страница 1 из 2
06.12.2017, 17:20
    #39565276
Лиса Алиса
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Как создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.
...
Рейтинг: 0 / 0
06.12.2017, 17:28
    #39565281
DВА
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Лиса АлисаКак создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.

не помню кто из ораклистов сказал - "если бы существовали конкретные правила, они бы уже давно были реализованы на уровне ядра" ))
...
Рейтинг: 0 / 0
06.12.2017, 17:35
    #39565290
env
env
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
DВА,

Так в 18-й версии же всё само автонастроится и будет идеально работать.
...
Рейтинг: 0 / 0
06.12.2017, 17:50
    #39565309
Лиса Алиса
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
DВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?
...
Рейтинг: 0 / 0
06.12.2017, 18:00
    #39565320
DВА
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Лиса АлисаDВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?
Ну после Кайта приличным тоном считается читать Милсапа
там правда тоже вода, но мозги систематизирует )
осилите Милсапа, переходите на Льюиса
...
Рейтинг: 0 / 0
06.12.2017, 18:10
    #39565332
rf_mail
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Лиса АлисаКак создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.

best fairy docs
...
Рейтинг: 0 / 0
06.12.2017, 19:06
    #39565369
Тролин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Скоро выйдут 18с (12.2.0.3)и 19с (12.2.0.4)...в каждой улучшений и автоматизаций на 1500%....админы для менеджеров не нужны. Зп помно снижать вопрос в том что на рынке технарей уже не остается
...
Рейтинг: 0 / 0
06.12.2017, 19:07
    #39565370
Тролин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Это описание страшного сна
...
Рейтинг: 0 / 0
06.12.2017, 19:20
    #39565378
Bobby Z.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Лиса АлисаКак создавать эффективные запросы и переливать большие таблицы (десятки миллионов строк) за небольшое время? Как создавать индексы, чтобы не страдали ни загрузка, ни скорость работы с запросами и так далее. Можно на английском. Просто чтобы это были не отвлечённые рассуждения, а конкретные правила.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, Variety (в последнее время, с подачи IBM, ещё добавляют Veracity). Реляционные БД, в целом, не решают последние два V, а многие спотыкаются ещё и на первых двух. А Вы спрашиваете про оптимизацию производительности, причём, как я понимаю, в контексте конкретной RDBMS: Oracle. Начинайте с Concepts, потом, как коллеги рекомендуют, Кэри Миллсап, Джонатан Льюис, Коннор Макдоналд, Танел Подер, Чарльз Хупер, их блогроллы,... И - эксперименты, эксперименты, эксперименты. Пробовать и проверять на практике всё, что узнали, постоянно задавать себе вопросы "а как это работает?" и "а что, если...?" и самостоятельно находить на них ответы, в документации, или в книгах, блогах, или, наконец, экпериментально, а если не получается найти, то спрашивать у тех, у кого получилось.

А за конкретными правилами - это к Бурлесону. :)
...
Рейтинг: 0 / 0
06.12.2017, 20:04
    #39565394
dbms_photoshop
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Bobby Z.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, VarietyМеня тоже поразило как все оказались на одной волне с ТС.

В наших краях big data - это экосистема hadoop.
Соотетсвенно, если в названии позиции есть big data, то речь гарантированно про hadoop.

А то доходит до абсурда, когда мне знакомый из России говорит "я устроился разработчиком C# на big data project",
по факту это оказалось C# + MSSQL, а big data использовано ибо им кажется что у них много данных.
...
Рейтинг: 0 / 0
06.12.2017, 20:06
    #39565396
dbms_photoshop
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Лиса АлисаDВА,

Том Кайт сказал в оракл для профессионалов.:) Читаю. А ещё что стоит почитать?oracle vldb best practices
...
Рейтинг: 0 / 0
06.12.2017, 22:47
    #39565449
DВА
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
dbms_photoshop,
ну если уже докапываться "до буквы закона", то биг дата это все-таки не непересекающийся с ораклом ни одним местом хадуп, а Oracle Big Data Appliance )
...
Рейтинг: 0 / 0
07.12.2017, 05:12
    #39565503
Bobby Z.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
DВАне непересекающийся с ораклом ни одним местом хадупНу, как бы уже давно пересекающийся через Big Data SQL... И дальше будет только больше пересечений, потому что Hadoop - это, конечно, модно и круто и у всех ассоциируется с big data, но при этом всем хочется SQL, причём не рудиментарный HiveQL, а полноценный, сравнимый по возможностям с Oracle или Transact-SQL. Ну потому что ничего лучше SQL для декларативной работы с множествами пока так и не придумали (хоть Баба-Яга Крис Дейт и против). Наваять такой SQL engine в open source с нуля проблематично, но можно попытаться портировать что-то уже работающее и проверенное временем. И такие попытки есть, и весьма многообещающие: HAWQ, он же Pivotal Greenplum on Hadoop. Greenplum, в свою очередь, основан на PostgreSQL, который среди open source RDBMS, пожалуй, единственный достойный конкурент Ораклу. Так что с этой стороны конвергенция идёт вовсю. Вендорам традиционных RDBMS, чтобы не потерять рынок, ничего другого не остаётся, как поддерживать популярные гетерогенные хранилища данных наравне со своими собственными, что они все наперегонки и делают (Oracle Big Data SQL, Microsoft Polybase, IBM BigInsights).
...
Рейтинг: 0 / 0
07.12.2017, 11:46
    #39565694
dbms_photoshop
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
DВАбиг дата это все-таки не непересекающийся с ораклом ни одним местом хадупВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Подер тоже захотел откусить кусок пирога и даже основал компанию Gluent, которая предоставляет скрещенные решения на Hadoop + Oracle - Connecting Hadoop and Oracle .
И сделано у него чуть лучше и гибче чем в поставке из коробки, но для меня не до конца понятно на что он надеется.
В лучшем случае Оракл это купит, в худшем - сделает то же самое уже со своими улучшениями.

Просто поначалу у многих была истерия по миграции всех RDBMS на здооровенные hadoop кластеры состоящие из "commodity hardware" или в облако, потом стало приходить понимание, что даже как хранилище с возможностью модицикаций данных для оперативного дня hadoop не очень (правда есть достаточно умные люди, которые все еще надеятся реализовать модификацию данных в hadoop). Все идет как раз к скрешенным решениям когда, скажем, неделя в Оракле, а остальное оффлоадится в хадуп.
DВАOracle Big Data ApplianceЭто, наверное, первым делом приходит на ум тому, кто начинает утро с чтения Оракловых маркетинговых буклетов.
...
Рейтинг: 0 / 0
07.12.2017, 12:06
    #39565718
dbms_photoshop
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Bobby Z.при этом всем хочется SQL, причём не рудиментарный HiveQL, а полноценный, сравнимый по возможностям с Oracle или Transact-SQLА всем это кому?
HiveQL практически ничем не уступает microsoft диалекту SQL.
Есть аналитические функции, grouping sets, нет разве что CTE (так оно не очень и надо - для этих целей другие инструменты).
А то, что есть некоторые ограничения на подзапросы или предикаты, так это даже плюс.
Ибо пишущий должен немного понимать как работает инструмент, чтоб не делать ложных выводов.
Вот Impala поддерживает OR-предикаты соединения в отличие от Hive и бизнес аналитик пишет соединение двух табличек,
а потом ждет окончания выполнения весь день ибо OR - это только nested loops при невозможности сделать concatenation.
И пока запрос выполняется он еще создает шум и рассказывает окружающим какой Impala отстой.
Bobby Z.Ну потому что ничего лучше SQL для декларативной работы с множествами пока так и не придумалиВ 95% случаев таки лучше, для остальных 5% есть Spark.
Не понятно такое зацикливание на SQL engine, многие фишки не имеют смысла ибо нет инексов (те же коррелированные скаляры кооторые не могут быть unnested).
Все развивается вполне логично и если есть желание - можно допилить свою query transformation - всё открыто . Это не Оракл.
Bobby Z.попытаться портировать что-то уже работающее и проверенное временемУже есть SQL engines
Spark SQL
Impala
Hive
Tez
... что еще портировать?
Это выглядит как попытки перешедшего с MSSQL на Oracle портировать свои best practices со временными таблицами.
Надо понимать отличия в архитектуре и что там уместно, а что нафиг не надо.
...
Рейтинг: 0 / 0
07.12.2017, 12:11
    #39565730
dbms_photoshop
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Bobby Z.Вендорам традиционных RDBMS, чтобы не потерять рынок, ничего другого не остаётся, как поддерживать популярные гетерогенные хранилища данных наравне со своими собственными, что они все наперегонки и делают (Oracle Big Data SQL, Microsoft Polybase, IBM BigInsights).Кроме поддержки скрещенных решений можно предлагать свои механизмы по размызванию нагрузки, что Оракл и сделал с его sharding architecture.
Правда мне неизвестны реальные примеры использования.
...
Рейтинг: 0 / 0
07.12.2017, 13:10
    #39565794
DВА
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
dbms_photoshopВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))
...
Рейтинг: 0 / 0
07.12.2017, 13:31
    #39565812
dbms_photoshop
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
DВАdbms_photoshopВообще то Оракл (и MSSQL и другие) его очень активно пересекает. Почитай хоть про external tables на hdfs.
Big Data SQL Quick Start. Introduction - Part1
Big Data SQL Quick Start. Offloading - Part2

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.
...
Рейтинг: 0 / 0
07.12.2017, 13:57
    #39565835
Alexander Ryndin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
dbms_photoshopDВАпропущено...

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.1) Там Cloudera Data Hub Edition входит в поставку
2) Если брать сравнимое железо от других вендоров (ну т.е. не на горбушке россыпью), то цена будет сравнима
3) Oracle Big Data Appliance обычно берут, когда Hadoop становится достаточно критичным для бизнеса
4) У Oracle на данный момент лучший ПАК для Big Data (по оценке Forrester) https://blogs.oracle.com/infrastructure/oracle-bda-leads-the-big-data-pack
...
Рейтинг: 0 / 0
07.12.2017, 14:02
    #39565845
DВА
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
dbms_photoshopDВАпропущено...

Так это и есть компонент Oracle Big Data Appliance , который был чуть позже от него отвязан и пущен в свободное плавание ))Я может быть что-то кардинально упускаю, но тут написано Full Rack 18 x Compute / Storage Nodes.
У меня в колхозе hadoop 400 nodes и, подозреваю, стоит оно дешевле.
Не очень понятно, в чем смысл ставить hadoop на тот гламурный сервак.


«Oracle Big Data Appliance является превосходным выбором для клиентов, которые хотят работать с полным комплексом передовых Hadoop-технологий Cloudera. Это более экономичный и быстрый в развертывании вариант в сравнении с созданием кластера собственными силами, — заявил Майк Олсон (Mike Olson), основатель, главный статег и председатель совета директоров компании Cloudera. — Что касается выполнения запросов к данным в Hadoop, мы отметили огромную потребность клиентов в SQL. Именно поэтому Cloudera разработала решение Impala, которое Oracle включает в платформу Oracle Big Data Appliance, чтобы предоставить клиентам возможность легко и эффективно выполнять запросы к данным в Hadoop с использованием SQL. Клиентам, которым требуется выполнять запросы и анализировать данные, размещенные в Hadoop и Oracle Database, решение Oracle Big Data SQL предлагает поддержку HDFS, позволяет использовать существующие навыки SQL и политики безопасности, а также упрощает интеграцию Hadoop с существующей инфраструктурой Oracle».
:)
Кстати тоже до сих пор не понимаю, почему бы ПО с селов экзадаты не распространять без привязки к самой экзадате ) Кому нада - воссоздал себе экзадату на парочке домашних ноутов ))
Но жирафф большой ему видней ))
...
Рейтинг: 0 / 0
07.12.2017, 14:21
    #39565873
dbpatch
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
dbms_photoshopBobby Z.Ваши вопросы весьма абстрактны и не имеют отношения к big data. От слова "вообще". Big data - это про 3V: Volume, Velocity, VarietyМеня тоже поразило как все оказались на одной волне с ТС.

В наших краях big data - это экосистема hadoop.
Соотетсвенно, если в названии позиции есть big data, то речь гарантированно про hadoop.

А то доходит до абсурда, когда мне знакомый из России говорит "я устроился разработчиком C# на big data project",
по факту это оказалось C# + MSSQL, а big data использовано ибо им кажется что у них много данных.

в вашем колхозе - да, это наверное гарантированно.
а так - полезно иногда читать не только ленту.ру газету Сельскую Жизнь, но быть хоть не много в курсе, как на самом деле обстоят дела.

ну или Технику Молодежи почитать, тоже сгодится, сойти за умного:
https://habrahabr.ru/post/303802/
...
Рейтинг: 0 / 0
07.12.2017, 14:23
    #39565876
Alexander Ryndin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
DВА,

Для того, чтобы обеспечить более высокий уровень сервиса нужно иметь меньшую энтропию, чем имеет самосбор (диски, флеш кэш, драйвера, ОС, firmware, файловая система и т.д.)...
Но для тех, у кого железо жестко зафиксировано - это печалька
...
Рейтинг: 0 / 0
07.12.2017, 14:30
    #39565885
dbpatch
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Alexander RyndinDВА,

Для того, чтобы обеспечить более высокий уровень сервиса нужно иметь меньшую энтропию, чем имеет самосбор (диски, флеш кэш, драйвера, ОС, firmware, файловая система и т.д.)...
Но для тех, у кого железо жестко зафиксировано - это печалька

самосборы бывают разные - кто-то на ноутах себе RAC собирает, а кто-то инфраструктуру в виде готовых контейнеров поставляет, или датацентры целиком вместе с DevOpsами и прочим.

вот последним фичи екзадата не помешали бы, чисто в софте - ценного там только ее компрессия, которая якобы только жутко аппаратная, на самом деле это лишь софтовая реализация + нетехнический hardware vendor-lock.

но из-за HCC компрессии заставлять покупать железно только одного производителя - это как-то... неконкуретно, что-ли..
...
Рейтинг: 0 / 0
07.12.2017, 14:39
    #39565896
Alexander Ryndin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
dbpatch,

Там помимо hcc довольно много всего...
...
Рейтинг: 0 / 0
07.12.2017, 14:50
    #39565907
dbpatch
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Что почитать насчёт обращения с big data?
Alexander Ryndindbpatch,

Там помимо hcc довольно много всего...

к примеру?

all flash storage, infiniband network - не смешно, такое могут не только они, а порой и получше.
storage offloading - фича, скажем так, спорная, нужно очень хорошо постараться, чтоб увидеть ее бенефит, для generic case разницы и вовсе особой нет.

а больше там и нет ничего такого

лучше бы они допилили до ума свои external tables, чтоб можно было задавать всякие аргументы-параметры уровня сессии для препроцессора, не через, простите, ......у, т.е. грязные хаки с parent process id

то что они там в 12.2 сделали - это совсем мимо кассы.

хотя это уже не про экзадата
...
Рейтинг: 0 / 0
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Что почитать насчёт обращения с big data? / 25 сообщений из 40, страница 1 из 2
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]