Data Lake как Staging Area / OLAP и DWH

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Data Lake как Staging Area

25 сообщений из 158, страница 4 из 7

все

Data Lake как Staging Area

#39734297

George Nordic

Участник

Откуда: Moscow

Сообщения: 1 252

Рейтинг: 0 / 0

Бумбараш, спасибо за вопрос. Помогите мне разобраться. Вообще, думаю, коллективно легче будет.. Я просто свои мысли накидаю, очень буду благодарен за комментарии и конструктивную критику, особенно по части хранилищ.

Начнем с общих определений, как информация доходит до конечного пользователя.
Пользователь <-> система визуализации <- ADWH <- Источники данных (т.ч. DWH / DataLake)

С "Системой визуализации", надеюсь, все понятно. PBI, Excel, ряд специализированных систем (Табло) и т.д.

Что я имею в виду под ADWH? Это "чистые" (достоверные) данные (прошедшие контроль качества) и рассчитанные показатели на их основе, пригодные и предназначенные для принятия управленческих решений. Обычно не он-лайн, есть лаг в несколько часов или даже дней.
Больше ничего там нет - только необходимые для аналитический отчетов данные.
Могут ли там лежать транзакции и прочие детальные данные? Да, если это необходимо для принятия управленческих решений (моделирования, прогнозирования и т.д.), но данная система категорически не предназначена для хранения исторических данных. Фактический, это слепок / выгрузка необходимых данных с заданным уровнем визуализации из систем хранения данных. Под ADWH я подразумеваю класс или подкласс систем, описывающих вышеуказанную задачу - это может быть и витрина / Datamart, или кубы / OLAP / специализированные системы для ускорения работы с данными и передачи их в визуализатор - Vertica, Greenplum и т.п. То есть основная задача - хранить подготовленные данные с приемлемым уровнем актуальности и достоверности и быстро выдавать их по запросу пользователю через интерфейс визуализатора (ну или прямым запросом, это на любителя).
Происходит ли подготовка данных в ADWH? Да, происходит. Рассчитываются агрегаты, показатели, можно посчитать общее и потом в отдельное поле проставить доли, чтобы система быстрее работала на типовых запросах можно обработать данные (при загрузке или сразу после загрузки), и ввести отдельные поля, дающие ответ на часто задаваемый вопрос - дней с последнего платежа или покупки, кол-во уникальных (лучше заранее просчитать, чем Distinct Count'ом потом систему мучить, а это может быть критично при работе с большим кол-вом данных), или флажок там взвести - sum по отфильтрованным всяко легче отработать чем тот же Distinct Count. Т.е. обработка данных там происходит.
Откуда же ADWH берет данные? В идеале - из DWH, а еще лучше если она является ее подмодулем. Кстати, сейчас все больше примеров подобных гибридов - реляционка DWH и ADWH поколонка: одна быстро пишет данные, вторая быстро их вытаскивает.
Но, как говориться, возможны варианты, особенно когда мы в сценарии начинаем рассматривать возможность использования DataLake.
Теперь давайте о том, что же необходимо хранить в DWH??
1. DWH ни в коем разе не должен быть "копией" транзакционной базы - это сисадминские дела, хранилище не для этого. Все-таки, DWH предназначен для построения отчетности. Следовательно, пихать туда "а это еще может пригодиться, вдруг понадобиться" - скоро получим кладбище данных, к 90% которых ни разу не обращались. В DWH должны попадать данные из разных систем и там же должен быть осуществлен процесс "чистки" данных. Возможно разделение на зоны "грязные" данные и "чистые" (с методологией очистки, чистки выбросов, насыщением необходимой аналитической информацией и т.д. Или только "чистые" при наличии доступа к транзакционным системам с "грязными" данными. Это говорит о том, что в DWH также происходит преобразование информации, как на уровне загрузки, так и процессинг загруженных данных.
2. Следовательно, состав данных в DWH - зависит от ADWH, и, соответственно, от задач пользователей. Возможно и избыточное хранение данных - ряд данных нужен для расчета сводных показателей и выгрузки в ADWH или даже для [возможного] прямого от пользователя.
3. И именно в DWH необходимо хранить исторические данные. Например, для расчета прогнозов. Или "разбора полетов". Или LFL или построения отчетов / выгрузки в ADWH исторических данных для расчета подобных показателей.

Таким образом мой посыл такой - уже на выходе из DWH мы имеем чистые данные, пригодные для дальнейшего анализа. ADWH - это надстройка, которая позволяет быстрее с ними работать - оперативный слепок. Да, ряд показателей рассчитывается, но только по этому слепку, чтобы не вносить лишние преобразования.

А вот теперь вопрос - что мы грузим в DataLake? И стоит ли туда грузить структурированные данные?
Мой личный ответ - нет, структурированные данные туда грузить не стоит. Их лучше сразу загонять в DWH.

Тут мы подходим к другим проблемам
1. Отсутствия необходимых данных. Т.е. если натравить ИИ / ML (да даже простой datamining) на нашу описанную выше DWH, то эти системы на найдут корреляции между спросом и структурой спроса и погодой и курсами доллара / Евро / стоимостью нефти. Почему? Да потому что их там нет! Мои проекты по DM на 80% состояли из поиска и загрузки релевантных данных, потом уже отсматривали корреляции, убирая случайные. <-здесь подробнее надо будет
2. Данные есть, Отсутствие знаний / алгоритмов / поиска ценности в этих данных. Например, проект в МЭС. Ну, например, есть данные по всем электросчетчикам г. Москвы. И что? Майнеров вычислять? Когда народ дома бывает и в отпуск / на дачу ездит? Что делать-то с ними?? Т.е. данные есть, а ценности (пока) не видно. [Ценность - в совокупности разных данных - раскрыть тему]

Я считаю, что в DL необходимо грузить сырые данные, но проводить над ними [пост]обработку. Причем результаты этой обработки могут быть как сохранены в DL (насыщение данных, тегирование, связывание данных с мастер-справочниками и с "чистыми" данными DHW), так и извлеченные знания необходимо уже переносить в DWH.
Т.е. пока мы туда кладем слабоструктурированные "сырцы" - видео, записи разговоров, тексты книг, датасатанисты извлекают ценность, которая уже идет в DWH/ADWH. А те же чеки - вот еще вопрос, стоит ли их хранить в DL, так как они хорошо структурированы! Вопрос, как их обратно правильно извлечь, учитывая что BigData - это, в первую очередь контекст и релавантность. Т.е. я по запросу "Чек номер 1 000 000" не ожидаю, кроме чека с №1000000 (есть он есть) получить чек с суммой 1000000 рублей или чек с книжкой "Миллион рецептов борща", "как завести миллион друзей" или "Как заработать первый миллион, тираж 2 000, стоимость 500 рублей" - а так и будет при неаккуратной работой с BigData!

Стоит ли "все" данные грузить в DL - большой вопрос. С одной стороны - нет, мы же не Плюшкины. С другой - а кто знает, какая ценность в них скрыта, и как они поведут себя при насыщении с имеющимися данными? Как я и говорил, Ценность - в совокупности разных данных. То есть сегодня мы просто храним записи камер, и потом подключили распознавание лиц. Сначала просто пол / возраст, а потом связали с кассой и временем. И получили корзину конкретного покупателя! а если он картой платил - то и ФИ. В общем, очень заманчивые для маркетинга возможности появляются. Надо просто знать, какую задачу решать, и как.

Кто что думает, кто чем дополнит?

С Уважением,
Георгий

...

Рейтинг:

0 / 0

16.11.2018, 18:02

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39734364

Alex_496

Участник

Откуда: https://www.dvbi.ru

Сообщения: 2 727

Рейтинг: 0 / 0

George Nordic,

насчет чистки. Что можно, то нужно чистить - были бы ресурсы, опыт и желание. А GIGO надо предотвращать в момент зарождения в исходных системах, если это не чужие внешние данные, на которые слабо влиять можем. Как правило, влиять на источники внутри компании - это административная борьба восходящая к Топ - менеджменту.
Никто не будет, например, править хлам в кредитных заявках годичной давности. Имеется ввиду дозаполнение атрибутов и устранение нелогизмов. Это нужно тогда повторный ввод с первичных документов. Да и первички уже может не быть.
Главное что - продажи! Продали и забыли, живем "сегодняшним днем". И тех уже спонсоров и разрабов нет.
А чтобы точкой зарождения классификаторов и справочников, равноудаленной от всех систем и запитывпющей все системы стал MDM - это та еще притча. Положим, есть MDM, но вместе с тем и локальные Экселя с доп. правильными атрибутами живут. А потом - многолетний MDM это изнурительный труд. И он тоже сходит на нет, т.к. движуха, текучка и опять же - главное - торгануть и свалить.

В DWH надо тянуть про запас, но не откровенный шлак. Ибо когда бизнес допрет, созреет, схватится - и понеслось скорей, скорей давайте закачивать то, чем пренебрегли ранее. Опять же историчные данные брать уже негде будет / GIGO / нет ресурсов.
Дорога ложка к обеду, и если у вас в DWH поболее чем только ложки, то и ценность другая.

Удалить ненужное не так долго, ломать - не строить.

Куда чаще встречаются дублирующиеся таблицы, платформы, дублирующиеся кланы отделы, строителей DWH, витрин, кубов и прочих слоев бескультурного наследия

...

Рейтинг:

0 / 0

16.11.2018, 20:33

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39734379

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

George NordicКто что думает, кто чем дополнит?

Билл Инмон дополнил в 2016. прочитайте, советую.

George NordicВопрос, как их обратно правильно извлечь, учитывая что BigData - это, в первую очередь контекст и релавантность. Т.е. я по запросу "Чек номер 1 000 000" не ожидаю, кроме чека с №1000000 (есть он есть) получить чек с суммой 1000000 рублей или чек с книжкой "Миллион рецептов борща", "как завести миллион друзей" или "Как заработать первый миллион, тираж 2 000, стоимость 500 рублей" - а так и будет при неаккуратной работой с BigData!

поверьте, в хадупе есть разные форматы хранения и в том числе те что на select * from table where field=1000000 в состоянии вернуть те же строки что и реляционная субд. и вы не сможете записать "борщ" в field, если поле нумерикал объявили. например в колончатые форматы parquet, orc. еще есть kudu - сторидж на хадупе практически со всеми атрибутами рсубд.

по мне так копирование структурированных данных с data lake, по нетворку, в настоящую реляционную DWH должно приносить серьезный бонус. если бонуса нет, нет смысла и копировать.
хадупы далеки до идеала, работа с файликами, в том числе структурированными имеет свою специфику, но очищенные и структурированные данные прямо в хадупе вполне рабочий вариант, который открывает дорогу и к реал-тайм аналитике и к более эффективным вариантам анализа, прямо там, где данные лежат.

...

Рейтинг:

0 / 0

16.11.2018, 21:27

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39734389

Hunterik

Участник

Сообщения: 474

Рейтинг: 0 / 0

В целом вроде все об одном и том же говорят, только немного разными словами и с разными акцентами.

Попытаюсь обобщить для себя:
- сваливать данные в DL без их "маркировки" и подготовки - это формирование свалки, в которой потом не разберёшься;
- до сих пор много активностей по DL (не все конечно) - это скорее дань маркетингу, чем осознанный шаг, связанный с необходимостью работы с большими объёмами данных и плохо структурированной информацией с применением соотв.аппарата по анализу накопленных данных (то есть сначала начнём накапливать и может пытаться анализировать, а потом посмотрим, что из этого выйдет);
- от реляционных СУБД и хранилищ данных бежать не стоит - просто так чуда с DL не случится - менять шило на мыло смысла нет для "стандартных" задач большинства Заказчиков, а для развития в сторону DL нужно осознание новых целей, с которыми устоявщийся подход не эффективен.

По теме...
Data Lake как Staging Area (именно Staging Area, а не хранилка впрок)... А нафига? Объёмы в SA сильно больше того, что пойдёт дальше в DWH?
В этом плане обратная выгрузка старых данных из традиционного DWH выглядит более привлекательной - освобождаем дорогую систему от старых данных, но выгрузка старых данных в Hadoop такую архивную систему Data Lake-ом не делает...
То же и со складированием информации впрок... Боевые системы могут значительно меняться, и разобраться в данных из прошлого, основываясь на знаниях сегодняшнего дня, может быть очень сложной задачей.
То есть дай человеку текущие данные, опиши, как система работает сегодня, а потом дай данные, скажем, двух летней давности, и можно встрять с их анализом, найдётся например какая-нибудь классификация, которая сегодня уже не нужна и не используется, которая просто умерла... И что, разбираться что там было и означало?

То есть с моей точки зрения тупое складирование на будущее - это странность схожая тому, как складируются вещи дома на всякий случай (старое пальто, лыжи на балконе, деталюшки всякие прикольные...).
Нужно снабжать складируемые данные дополнительной информацией, которая потом позволит понять, что сложено, откуда взято и т.д... Тупо сваливать, вдруг пригодится - не выглядит рационально.

А вот делать действительно упорядоченную систему хранения и анализа больших объёмов, из которой что-то, возможно, можно докинуть в том числе и в стандартное DWH, работающее рядышком (пока и если оно не будет заменено полностью на DL поверх Hadoop) - это уже другое дело.
Только цель нужно видеть хотя бы примерно прежде, чем за это браться - нужно вот это и не могу сделать на том, что есть, с теми данными, что имею, в том виде, в котором они представлены.

Конечно, DL нужны, но всем ли? Иногда кажется, что рынок разгоняют тем, что пугают, что кто-то, используя новые подходы, найдёт в стоге сена иголку, которая позволит "сделать" всех остальных, а потому нужно себе тоже создать такой же стог сена и начать в нём копаться, дабы не отстать в процессе поиска той самой иголки, на поиск которой может уйти денег больше, чем возможный выхлоп...

Мне очень понравилась фраза про "отсутствие знаний / алгоритмов / поиска ценности в этих данных".

В интересное время живём. =)

...

Рейтинг:

0 / 0

16.11.2018, 21:59

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39735163

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

авторData Lake как Staging Area (именно Staging Area, а не хранилка впрок)... А нафига? Объёмы в SA сильно больше того, что пойдёт дальше в DWH?
Фига и еще как. лично участвовал в DL где парсились соцсети. И объемы были гиганские - хотя и уже вполне структурированные в момент еще до заливки. Так вот кроме как в хадуп такой объем никуда не сложить изначально. А потом после обработки выжимка из него шла в РСУБД. Разница объемов примерно на порядок.

...

Рейтинг:

0 / 0

19.11.2018, 15:18

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39735189

Hunterik

Участник

Сообщения: 474

Рейтинг: 0 / 0

Ivan DurakавторData Lake как Staging Area (именно Staging Area, а не хранилка впрок)... А нафига? Объёмы в SA сильно больше того, что пойдёт дальше в DWH?
Фига и еще как. лично участвовал в DL где парсились соцсети. И объемы были гиганские - хотя и уже вполне структурированные в момент еще до заливки. Так вот кроме как в хадуп такой объем никуда не сложить изначально. А потом после обработки выжимка из него шла в РСУБД. Разница объемов примерно на порядок.
В каком смысле выжимка - что с данными делали, если не секрет? =)

...

Рейтинг:

0 / 0

19.11.2018, 16:04

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39735248

Полковник.

Участник

Сообщения: 1 648

Рейтинг: 0 / 0

Ivan Durak,

Дурное дело - не хитрое. Это я про парсинг соцсетей и поиска там золота.

...

Рейтинг:

0 / 0

19.11.2018, 17:14

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39735256

StarikNavy

Участник

Откуда: Москва

Сообщения: 1 888

Рейтинг: 0 / 0

HunterikВ каком смысле выжимка - что с данными делали, если не секрет? =)
агрегировали вестимо

...

Рейтинг:

0 / 0

19.11.2018, 17:32

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39735269

Hunterik

Участник

Сообщения: 474

Рейтинг: 0 / 0

StarikNavyHunterikВ каком смысле выжимка - что с данными делали, если не секрет? =)
агрегировали вестимо
Да мне скорее детали интересны, чем в общем, наверняка же не только агрегировались, но и фильтровались, и, наверное, сохранялись долгосрочно... Ну да ладно, захочет человек - поделится. =)
От конкретного использования, как мне кажется, зависит можно ли назвать такое использование просто использованием в качестве Staging Area, или обогощением одной аналитической системы другой.
Ну вполне возможно, что просто игра терминов и привычки, ну то такое...

...

Рейтинг:

0 / 0

19.11.2018, 18:12

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39735342

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

HunterikStarikNavyпропущено...

агрегировали вестимо
Да мне скорее детали интересны, чем в общем, наверняка же не только агрегировались, но и фильтровались, и, наверное, сохранялись долгосрочно... Ну да ладно, захочет человек - поделится. =)
От конкретного использования, как мне кажется, зависит можно ли назвать такое использование просто использованием в качестве Staging Area, или обогощением одной аналитической системы другой.
Ну вполне возможно, что просто игра терминов и привычки, ну то такое...
ну как-как использовали. Для скоринга :)

...

Рейтинг:

0 / 0

19.11.2018, 21:49

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39738315

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

George NordicКто что думает, кто чем дополнит?

С Уважением,
Георгий
Большие данные - это данные про людей. Точнее, про их взаимодействие. И нужны они исключительно для рекламы товаров и услуг. Любых товаров и любых услуг. Нужно заглянуть внутрь человека, чтобы ему что-либо продать по той цене, которая устраивает продавца и которую можно навязать покупателю. А как навязать. Двумя путями. Первый - "ведь ты этого достоин". А чтобы узнать, чего считает себя покупатель достойным - нужно его проанализировать. Его сообщения. Это первый источник Big Data (в широком смысле, не только текстовые, но и звонки в голосовом виде и записи видеокамер для распознавания мимики и эмоций).
Второй - "у всех твоих знакомых уже есть, ты что, собрался выделяться среди них, ты лох дрожащий или право купить имеешь?" Для этого нужно собрать его граф знакомых. Это второй источник Big Data.

А проблема в том, что на лету это не обработать. Чтобы правильно распознать эмоции с видеосъемки - нужно собрать информацию о том, на что была такая реакция. Может быть, покупатель шел по улице, увидел рекламу Pepsi и скривился в гримасе - все, таки готово, продаем ему кока-колу, пепси он пить не будет.

Так вот - поступление такой информации из разных источников не синхронно. Поэтому нужно сложить, подождать некой точки наполнения для восстановления контекста, по которому можно уже проанализировать покупателя, и только после этого продолжить анализ.

И Data Lake действительно Staging Area. Состоящий из разных кусков, пополняемых с некой разной задержкой, которая еще и плавает во времени.

И окончательный вывод - "он скривился при слове пепси, нужно пометить в DWH, что это покупатель кока-колы" будет по источнику 1 и 2 из этого озера. И другой окончательный вывод - "он носит кожаную куртку зимой, наверняка приехал на машине, из базы ГАИ получена информация, что за ним числится новенький вольво, ему нужно продавать зимнюю резину и кожаные мужские перчатки, причем очень дорогие, от кошерного бренда" будет по источнику 2 и 3 из этого озера.

И эти staging куски будут постоянно использоваться, чтобы в цикле все больше узнавать про покупателя и то, что он готов купить, заносить в DWH.

Вот такое дополнение. Все в этом мире ради шекелей, поэтому тот, кто тратит деньги на сервера и Data Lake, думает прежде всего о том - "где мои покупатели и их бездонные кошельки, что я им смогу продать и заработать на этом чуть-чуть немножко больше".

...

Рейтинг:

0 / 0

26.11.2018, 01:15

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39738369

Alex_496

Участник

Откуда: https://www.dvbi.ru

Сообщения: 2 727

Рейтинг: 0 / 0

Andy_OLAP,

какие-то сказки дивные излагаете. В бэнках унифицировать профессии, указываемые в кредитных заявках, а затем сгруппировать и проанализировать - и то не могут, не знают для чего

...

Рейтинг:

0 / 0

26.11.2018, 09:42

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39738374

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

26.11.2018, 10:02

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39738415

L_argo

Участник

Сообщения: 1 497

Рейтинг: 0 / 0

Andy_OLAP,

Какой образцово-лютый маркетологический бред... В Голливуде сценарии блокбастеров пишете ?

...

Рейтинг:

0 / 0

26.11.2018, 11:17

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39738862

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

L_argoAndy_OLAP,
В Голливуде сценарии блокбастеров пишете ?
А откуда у Вас эта информация? На кого Вы работаете?

...

Рейтинг:

0 / 0

26.11.2018, 23:52

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39738864

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

Alex_496Andy_OLAP,

какие-то сказки дивные излагаете. В бэнках унифицировать профессии, указываемые в кредитных заявках, а затем сгруппировать и проанализировать - и то не могут, не знают для чего
Банкам (обычным, за исключением 4-х банков в отдельности и ФРС в целом) просто никто не разрешит заниматься такими вещами. Каждому по способностям, от каждого по потребностям того, кто контролирует этих "каждых".

...

Рейтинг:

0 / 0

26.11.2018, 23:54

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39738865

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

Alexander RyndinAlex_496Andy_OLAP,

какие-то сказки дивные излагаете. В бэнках унифицировать профессии, указываемые в кредитных заявках, а затем сгруппировать и проанализировать - и то не могут, не знают для чего человек ночью писал, сон у него хороший был. Не обламывайте
Я таки просто на достаточно неабстрактных примерах попробовал обобщить выше высказанное и пояснить участникам форума, которые забредут в эту ветку, что data lake сначала нужно собрать как staging, потом циклично пополнять, потом в какой-то момент использовать для анализа и агрегации вверх, в сторону DWH.

...

Рейтинг:

0 / 0

26.11.2018, 23:56

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39741472

churupaha

Участник

Откуда: Краснодар

Сообщения: 990

Рейтинг: 0 / 0

в продолжении вот этой ветки может будет кому-то интересно (извиняюсь за ошибки, не перечитывал, всё писал на лету с головы)

Полтора месяца плотно использую Azure Databricks Premium (Spark, SQL, Scala, иногда Python):

- если коротко, то впечатления только положительные
- поскольку это Spark, то можно юзать 3 вида API: RDD, Data Frame, SQL, есть выбор, если надо микроменеджить всё что под капотом RDD, если не надо, то Data Frame или SQL
- читать данные можно с HDFS, Azure Blob Storage, S3 (вообще можно к чему угодно, если работаешь на уровне RDD API, в моем случае так и вышло)
- реально работающий интерактивный интерфейс, можно кверить и крутить данные (попробуй сделать тоже с U-SQL)
- в Databricks Notebook'e можно мешать код на Scala, Python, SQL. очень класно, когда нужно вытащить что-то с нестандартного источника/нестандартный формат, то делаешь этот кусок в c помощью Scala/RDD скидуешь в parquet, дальше читаешь его с помощью DataFrame API или SQL там же в Notebook...
- полученный Notebook можно легко зашедулить с помощью Data Factory
- Databricks Premium дает возможность создавать таблицы своего "формата" организованные в каталоги: parquet + tranlog/versionhistory. Это позволяет делать на них UPDATE/MERGE/DELETE :). SCD дименшны теперь можно пилить без гемора прямо здесь. По сути Databricks Premium дает всё: ETL, stage, DWH с колумнстором всё можете делать прямо здесь. писатели и читатели разруливаются на уровне версий (никто никого не блокирует, всё консистентно)
- всё скейлится на лету либо статично выделяется нужное число нод - как настроишь, можете задать число нод например 2-35, кластер стартанет с 2 нод, если будет реальная нагрузка, оно добавить неактивные ноды постепенно пока не упрется до 35, нагрузки не будет, уменьшит число нод, если вообще Idle в течении времени N - кластер потушится автоматом :). стартует кластер либо явно либо при первом запросе пользователя
- Power BI может коннектиться напрямую к DWH в Databricks'e Premium
- прост в использовании, аналитики вьезжают с первого раза, все довольные...
- Spark Streams поддерживается (не использовал пока)

вобщем-то DataLake чувствуется тут :)

...

Рейтинг:

0 / 0

01.12.2018, 18:11

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39741477

churupaha

Участник

Откуда: Краснодар

Сообщения: 990

Рейтинг: 0 / 0

+ удобство работы:

- интегрировано с github/bitbucket (можно получше)
- хорошо организован worckspace, можно шарить друг с другом notebooks
- можно насоздавать кучу кластеров под разные нужды, которые будут автоматом подниматься джобом или запросом пользователя (говноскриптить ничего не надо), много кластеров может быть полезно под разные job'ы, в зависимости от потребности джоба, interactive querying etc)
- всё биллится pay as u go

- о! вспомнил, стандартный коннектор для Azure DWH - Polybase aware, т. е. если вам нужно перекачать много данных из DataBricks в Azure DWH, то юзаете в несколько строчек этот коннектор, он в несколько потоков (линейно скейлится) выгружает это на промежуточный blob storage в parquet файлы, и инициирует загрузку выгруженного в Azure DWH через Polybase (каждая дочерняя нода параллельно всасывает в себя файлы), что самое класное при этом на стороне Azure DWH поддерживается опции DISTRIBUTION = ROUND_ROBIN/REPLICATE/HASH + COLUMNSTORE, оно налету параллельно через DMS сервис раскидывается по дистрибюшнам и сразу летит в columnstore индексы на каждом distribution'e. И всё это в несколько высокоуровневых строчек...

- еще продумана работа с хранением кредов к стораджам, базам и прочим, можно юзать Azure Vault либо Databricks'овский scope...

- в Databricks Premium вроде есть RBAC security для notebooks, clusters, jobs, and tables (пока не тестили)
- техподдержка ажура работает быстро, помогают

...

Рейтинг:

0 / 0

01.12.2018, 18:25

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39741601

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

churupaha,

У вас же в профиле Краснодар, а не (условный) Ганновер.
Простой вопрос - что будете делать, если:
1) Роскомнадзор заблочит ваш сервис за компанию с кем-нибудь;
2) реализуются политические риски в виде санкций с обоих сторон?

Просто я знаю довольно крупную компанию, которая поставила на облака и осталась совершенно без отчетности в момент блокировки телеграма. И именно из-за этого летом они хотели стартовать локализованный проект.

...

Рейтинг:

0 / 0

02.12.2018, 10:55

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39741610

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

churupaha- в Databricks Notebook'e можно мешать код на Scala, Python, SQL. очень класно, когда нужно вытащить что-то с нестандартного источника/нестандартный формат, то делаешь этот кусок в c помощью Scala/RDD скидуешь в parquet, дальше читаешь его с помощью DataFrame API или SQL там же в Notebook...

года два назад смотрел датабрикс, ноутбуки были просто скрипты. т.е. все ошибки в рантайме. имхо если уж дают нормальный спарк, то логичней делать по взрослому, на чем то компилирующемся, с юнит тестами и прочая. плюс уход от вендор лок. спарк на любое облако перетянуть можно.

churupaha- Databricks Premium дает возможность создавать таблицы своего "формата" организованные в каталоги: parquet + tranlog/versionhistory. Это позволяет делать на них UPDATE/MERGE/DELETE :). SCD дименшны теперь можно пилить без гемора прямо здесь. По сути Databricks Premium дает всё: ETL, stage, DWH с колумнстором всё можете делать прямо здесь. писатели и читатели разруливаются на уровне версий (никто никого не блокирует, всё консистентно)

а есть где почитать подробности? мы тоже это проворачиваем писаниной в отдельный фолдер, но писать всю витрину приходиться. может они чего круче придуали ?

churupaha- Power BI может коннектиться напрямую к DWH в Databricks'e Premium

они считают что PowerBI будет нормально и без рсубд, сразу из озера отчетики строить? как то я с трудом такое представляю, имхо отчетной системе нужно что-то, что не станет на каждый чих скан партиции делать.

2Критик
завтра в сирии рзбомбят случайно амов, эмбарго, майкрософт точно так же отключит ваши майкрософт сервера. у вас такой же вендор лок.

...

Рейтинг:

0 / 0

02.12.2018, 11:34

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39741622

churupaha

Участник

Откуда: Краснодар

Сообщения: 990

Рейтинг: 0 / 0

Критикchurupaha,

У вас же в профиле Краснодар, а не (условный) Ганновер.
Простой вопрос - что будете делать, если:
1) Роскомнадзор заблочит ваш сервис за компанию с кем-нибудь;
2) реализуются политические риски в виде санкций с обоих сторон?

Просто я знаю довольно крупную компанию, которая поставила на облака и осталась совершенно без отчетности в момент блокировки телеграма. И именно из-за этого летом они хотели стартовать локализованный проект.

А я на заграничную компанию работаю (по удаленке, не бодишоп, прямо напрямую), предыдущее место также.

...

Рейтинг:

0 / 0

02.12.2018, 12:14

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39741665

churupaha

Участник

Откуда: Краснодар

Сообщения: 990

Рейтинг: 0 / 0

H5N1года два назад смотрел датабрикс, ноутбуки были просто скрипты. т.е. все ошибки в рантайме. имхо если уж дают нормальный спарк, то логичней делать по взрослому, на чем то компилирующемся, с юнит тестами и прочая. плюс уход от вендор лок. спарк на любое облако перетянуть можно.

Скриптами они и остались Про время обнаружения ошибок - зависит от выбранного API . Ещё, если логика действительно не тривиальная, можно засунуть ее в jar'ы и зааплоадить в Databricks и указать к какому кластеру или ко всем ее атачить при старте, maven поддерживается. Python'овские eggs, pypi тоже поддерживаются и т. п..

H5N1churupahaDatabricks Premium...UPDATE/MERGE/DELETE...SCD дименшны
а есть где почитать подробности? мы тоже это проворачиваем писаниной в отдельный фолдер, но писать всю витрину приходиться. может они чего круче придуали?

Оно гуглится по словам Databricks Delta.
https://docs.databricks.com/delta/index.html
https://vimeo.com/274267634

Если коротко - они не перетирают весь датасет, а лишь добавляют delta файлы к существующему датасету, и ведут метаданные. Чуть попозже покажу пример, что там происходит с файлами.

H5N1churupaha- Power BI может коннектиться напрямую к DWH в Databricks'e Premium

они считают что PowerBI будет нормально и без рсубд, сразу из озера отчетики строить? как то я с трудом такое представляю, имхо отчетной системе нужно что-то, что не станет на каждый чих скан партиции делать.

Просто, как опция , коннектится Power BI к каталогу таблиц ("базе"), которые, учитывая DataBricks Delta и parquet может и быть полноценным DWH со всякими SCD и прочим... Плюс сам Power BI может работать в режиме Direct Query и генерит Spark SQL или в режиме import'a можно приготовить ему агрегированные таблицы и зашедулить Refresh в Power BI Online. Что выбирать - зависит.

При этом выгружать в Azure DWH можно также легко и параллельно в неск. строчек кода... На сторонние стораджи тоже, этоже Spark...

---
Еще прикольная фича Spark'a - можно начать что-то не стандартное с RDD, вытащить данные и плавно в середине перейти к Data Frame API... и т. д..

...

Рейтинг:

0 / 0

02.12.2018, 14:26

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39741694

churupaha

Участник

Откуда: Краснодар

Сообщения: 990

Рейтинг: 0 / 0

H5N1,

Databricks Delta UPDATE/DELETE

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
97.
98.
99.
100.
101.
102.
103.
104.
105.
106.
107.
108.
109.
110.
111.
112.
113.
114.
115.
116.
117.
118.
119.
120.
121.
122.
123.
124.
125.
126.
127.
128.
129.
130.
131.
132.
133.
134.
135.
136.
137.
138.
139.
140.
141.
142.
143.
144.
145.
146.
147.
148.
149.
150.
151.
152.
153.
154.
155.
156.
157.
158.
159.
160.
161.
162.
163.
164.
165.
166.
167.
168.
169.
170.
171.
172.
173.
174.
175.
176.
177.
178.
179.
180.
181.
182.
183.
184.
185.
186.
187.
188.
189.
190.
191.
192.
193.
194.
195.
196.
197.
198.
199.
200.
201.
202.
203.
204.
205.
206.
207.
208.
209.
210.
211.
212.
213.
214.
215.
216.
217.
218.
219.
220.
221.
222.
223.
224.
225.
226.
227.
228.
229.
230.
231.
232.
233.
234.
235.
236.
237.
238.
239.
240.
241.
242.
243.
244.
245.
246.
247.
248.
249.
250.
251.
252.
253.
254.
255.
256.
257.
258.
259.
260.
261.
262.
263.
264.
265.
266.
267.
268.
269.
270.
271.
272.
273.
274.
275.
276.
277.
278.
279.
280.
281.
282.
283.
284.
285.
286.

%sql
drop database if exists test_db cascade;
create database test_db;

create table test_db.test_tbl using delta as
select * from xxx;

databricks fs ls -l dbfs:/user/hive/warehouse/test_db.db/test_tbl/

dir          0  _delta_log
file  51926603  part-00000-1426c3ce-b229-483a-b77e-758462e6431b-c000.snappy.parquet
file  51931083  part-00001-89279585-72ed-4a93-9332-33b992ba7dea-c000.snappy.parquet
file  51836760  part-00002-d7d44c81-bc00-4863-ae53-b13baf0a8ec6-c000.snappy.parquet
file  51765672  part-00003-fbdf50d1-8166-4909-aaa4-4c41bb6a28e0-c000.snappy.parquet
file  51645701  part-00004-46fd54a1-c958-4f7b-b4f1-720cca087dbc-c000.snappy.parquet
file  51636215  part-00005-6bc7aa3a-9bca-4ec3-8a95-9fe5c7bcadd7-c000.snappy.parquet
file  51574509  part-00006-b9c010e6-9017-4a0e-853c-887dec591b73-c000.snappy.parquet
file  51673471  part-00007-31d54d8c-99a5-45a8-82ce-875e3d822b4c-c000.snappy.parquet
file  51712654  part-00008-a5dc71ac-69dc-4ebf-b317-55f8bfc275bb-c000.snappy.parquet
file  51574726  part-00009-261340a5-fcec-406d-98a0-83146ad47189-c000.snappy.parquet
file  51616103  part-00010-3ad706be-f215-4c81-8ee5-4d6834714f65-c000.snappy.parquet
file  51176632  part-00011-a4b84205-a59e-400a-975f-70c9f6c3de12-c000.snappy.parquet
file  51619480  part-00012-80c19ac4-e812-46a0-9507-d042bcd34110-c000.snappy.parquet
file  51482600  part-00013-5d9de6ce-fb01-418f-ae6f-6181e65bed66-c000.snappy.parquet
file  51552115  part-00014-2e547729-6858-49d1-a3b1-4b6b335a8da2-c000.snappy.parquet
file  51568260  part-00015-2e5696b9-9f6d-4f0c-bc9c-e1b63cd587c3-c000.snappy.parquet
file  51544169  part-00016-02edd1f4-ee78-413e-a0af-0f2b906d2a27-c000.snappy.parquet
file  51550346  part-00017-a28f200c-53c3-4646-9588-6e91643726a9-c000.snappy.parquet
file  51147934  part-00018-2d20ae02-2819-469c-b291-77312ba2938d-c000.snappy.parquet
file  51557341  part-00019-cc2c0e47-58ca-4c91-b783-7ee247f5e993-c000.snappy.parquet
file  51324794  part-00020-1627c301-a463-41d5-8c56-36f91eada362-c000.snappy.parquet
file  51470205  part-00021-3a193aeb-4e41-4dff-8a6d-d9d743bd401b-c000.snappy.parquet
file  51477655  part-00022-24d61281-d7ae-43b0-9ba1-e6e72e6fdf8f-c000.snappy.parquet
file  51536465  part-00023-ecca1e52-69c7-4494-b44c-eef7bf0c2a45-c000.snappy.parquet
file  51531138  part-00024-b88869d2-b679-47e6-a9ab-7a434920d7ff-c000.snappy.parquet
file  51502406  part-00025-3944d9b3-15bb-439e-b76c-ee7bf5f3f8a5-c000.snappy.parquet
file  51513942  part-00026-c36583b2-7d88-4958-bd26-f4e1760056bc-c000.snappy.parquet
file  51367886  part-00027-13d43c61-e980-476b-a537-f327a9893d36-c000.snappy.parquet
file  51478477  part-00028-5a8e0145-ada8-47ca-be92-b3dac8b18043-c000.snappy.parquet
file  51464162  part-00029-c7fc0a9a-9318-46eb-b130-e9a2209de1cd-c000.snappy.parquet
file  51471764  part-00030-21cc41eb-f27a-4e79-b943-89e55e6304be-c000.snappy.parquet
file  51529154  part-00031-f7460e47-557e-46cb-9ca5-273153f527a6-c000.snappy.parquet
file  51397207  part-00032-58710500-0a8c-4dff-bf76-0e3e414169cd-c000.snappy.parquet
file  51506234  part-00033-0e1d4307-c2c2-4280-8e8f-fac317b1abf7-c000.snappy.parquet
file  51413162  part-00034-71352935-c929-4aeb-8ed0-e843ca7b38e5-c000.snappy.parquet
file  50939362  part-00035-a8380fbd-20a0-4134-80bb-a42a092d519c-c000.snappy.parquet
file  51361043  part-00036-cd8c8e25-291f-4bad-89f5-36ccaaa3b303-c000.snappy.parquet
file  51269317  part-00037-2b588e22-ab2b-46e0-bc41-4dc6de23ca93-c000.snappy.parquet
file  51353055  part-00038-87aa3375-727c-43d5-a5fe-3a8f96f9a9de-c000.snappy.parquet
file  51359248  part-00039-b773f0bf-da86-4416-8e13-ac9b65b4fe6e-c000.snappy.parquet
file  51277753  part-00040-ab3b4492-d9e6-4422-8265-dea45b93cb81-c000.snappy.parquet
file  51461096  part-00041-8d54afc4-a461-4082-a498-841f30632b5e-c000.snappy.parquet
file  51369131  part-00042-0676f4e3-d324-481a-b219-8d947b827b7b-c000.snappy.parquet
file  51190015  part-00043-1801422a-acfe-4c80-9726-9bcc23e55a26-c000.snappy.parquet
file  51442688  part-00044-629fe344-921c-400a-9990-da75bef26a19-c000.snappy.parquet
file  51268063  part-00045-c866bd8d-a710-4aee-8afb-5e8025b222d8-c000.snappy.parquet
file  51195796  part-00046-a307d8d8-3d33-49c2-8db6-6696fa4eab55-c000.snappy.parquet
file  51163868  part-00047-f76157ee-4193-469f-a628-a8d6c6e3659b-c000.snappy.parquet
file  51230503  part-00048-e4f57059-7b5f-4f30-bf4d-15a35794025c-c000.snappy.parquet
file  59455581  part-00049-2850b901-2dbf-406c-8ffe-991c2479974d-c000.snappy.parquet
file  18663521  part-00050-137995d3-bd8e-434b-a2b1-d77b75611cef-c000.snappy.parquet
file   4988629  part-00051-64f8c21a-9ab8-4d0f-bbe6-a4774d9ffbbd-c000.snappy.parquet

databricks fs ls -l dbfs:/user/hive/warehouse/test_db.db/test_tbl/_delta_log

file     96  00000000000000000000.crc
file  23092  00000000000000000000.json

00000000000000000000.crc
{"tableSizeBytes":2605065694,"numFiles":52,"numMetadata":1,"numProtocol":1,"numTransactions":0}

00000000000000000000.json
{"commitInfo":{"timestamp":1543751811443,"userId":"6605856514319898","userName":"xxx@xxx","operation":"CREATE TABLE AS SELECT","operationParameters":{"isManaged":"true","description":null,"partitionBy":"[]","properties":"{}"},"notebook":{"notebookId":"2221810962482344"},"clusterId":"1126-094127-pods946"}}
{"protocol":{"minReaderVersion":1,"minWriterVersion":2}}
{"metaData":{"id":"2f1fd135-3b03-45ec-9075-12a7b8a79715","format":{"provider":"parquet","options":{}},"schemaString":"{\"type\":\"struct\",\"fields\":[{\"name\":\"c1\",\"type\":\"integer\",\"nullable\":true,\"metadata\":{}},{\"name\":\"c2\",\"type\":\"integer\",\"nullable\":true,\"metadata\":{}},{\"name\":\"c3\",\"type\":\"integer\",\"nullable\":true,\"metadata\":{}},{\"name\":\"c4\",\"type\":\"integer\",\"nullable\":true,\"metadata\":{}},{\"name\":\"c5\",\"type\":\"integer\",\"nullable\":true,\"metadata\":{}}]}","partitionColumns":[],"configuration":{},"createdTime":1543751736915}}
{"add":{"path":"part-00000-1426c3ce-b229-483a-b77e-758462e6431b-c000.snappy.parquet","partitionValues":{},"size":51926603,"modificationTime":1543751750000,"dataChange":true,"stats":"{\"numRecords\":5410014,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":3,\"c4\":79,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":567,\"c4\":13527760,\"c5\":3278},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273634,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00001-89279585-72ed-4a93-9332-33b992ba7dea-c000.snappy.parquet","partitionValues":{},"size":51931083,"modificationTime":1543751755000,"dataChange":true,"stats":"{\"numRecords\":5413461,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":58,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":543,\"c4\":13459440,\"c5\":706},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1274466,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00002-d7d44c81-bc00-4863-ae53-b13baf0a8ec6-c000.snappy.parquet","partitionValues":{},"size":51836760,"modificationTime":1543751749000,"dataChange":true,"stats":"{\"numRecords\":5405780,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":101,\"c5\":0},\"maxValues\":{\"c1\":3926010,\"c2\":10403,\"c3\":650,\"c4\":13525720,\"c5\":3561},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273352,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00003-fbdf50d1-8166-4909-aaa4-4c41bb6a28e0-c000.snappy.parquet","partitionValues":{},"size":51765672,"modificationTime":1543751755000,"dataChange":true,"stats":"{\"numRecords\":5409232,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":53,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":533,\"c4\":13514620,\"c5\":1328},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273808,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00004-46fd54a1-c958-4f7b-b4f1-720cca087dbc-c000.snappy.parquet","partitionValues":{},"size":51645701,"modificationTime":1543751750000,"dataChange":true,"stats":"{\"numRecords\":5409328,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926009,\"c2\":10403,\"c3\":533,\"c4\":13520940,\"c5\":3882},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273595,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00005-6bc7aa3a-9bca-4ec3-8a95-9fe5c7bcadd7-c000.snappy.parquet","partitionValues":{},"size":51636215,"modificationTime":1543751756000,"dataChange":true,"stats":"{\"numRecords\":5406456,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":95,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":700,\"c4\":13499120,\"c5\":3188},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273762,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00006-b9c010e6-9017-4a0e-853c-887dec591b73-c000.snappy.parquet","partitionValues":{},"size":51574509,"modificationTime":1543751750000,"dataChange":true,"stats":"{\"numRecords\":5409737,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":47,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":533,\"c4\":13527260,\"c5\":671},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1274070,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00007-31d54d8c-99a5-45a8-82ce-875e3d822b4c-c000.snappy.parquet","partitionValues":{},"size":51673471,"modificationTime":1543751756000,"dataChange":true,"stats":"{\"numRecords\":5411145,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":68,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":1305,\"c4\":13439940,\"c5\":3631},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273965,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00008-a5dc71ac-69dc-4ebf-b317-55f8bfc275bb-c000.snappy.parquet","partitionValues":{},"size":51712654,"modificationTime":1543751760000,"dataChange":true,"stats":"{\"numRecords\":5406436,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":77,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":650,\"c4\":13463900,\"c5\":763},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273554,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00009-261340a5-fcec-406d-98a0-83146ad47189-c000.snappy.parquet","partitionValues":{},"size":51574726,"modificationTime":1543751760000,"dataChange":true,"stats":"{\"numRecords\":5410257,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":500,\"c4\":13521480,\"c5\":634},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272442,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00010-3ad706be-f215-4c81-8ee5-4d6834714f65-c000.snappy.parquet","partitionValues":{},"size":51616103,"modificationTime":1543751760000,"dataChange":true,"stats":"{\"numRecords\":5404130,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":110,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":617,\"c4\":13499680,\"c5\":3882},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272247,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00011-a4b84205-a59e-400a-975f-70c9f6c3de12-c000.snappy.parquet","partitionValues":{},"size":51176632,"modificationTime":1543751760000,"dataChange":true,"stats":"{\"numRecords\":5409639,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":533,\"c4\":13517220,\"c5\":706},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1274284,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00012-80c19ac4-e812-46a0-9507-d042bcd34110-c000.snappy.parquet","partitionValues":{},"size":51619480,"modificationTime":1543751765000,"dataChange":true,"stats":"{\"numRecords\":5407717,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":46,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":617,\"c4\":13516720,\"c5\":777},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272600,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00013-5d9de6ce-fb01-418f-ae6f-6181e65bed66-c000.snappy.parquet","partitionValues":{},"size":51482600,"modificationTime":1543751765000,"dataChange":true,"stats":"{\"numRecords\":5406751,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":81,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":567,\"c4\":13525200,\"c5\":3380},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273890,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00014-2e547729-6858-49d1-a3b1-4b6b335a8da2-c000.snappy.parquet","partitionValues":{},"size":51552115,"modificationTime":1543751765000,"dataChange":true,"stats":"{\"numRecords\":5407423,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926010,\"c2\":10403,\"c3\":600,\"c4\":13526240,\"c5\":1446},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272667,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00015-2e5696b9-9f6d-4f0c-bc9c-e1b63cd587c3-c000.snappy.parquet","partitionValues":{},"size":51568260,"modificationTime":1543751765000,"dataChange":true,"stats":"{\"numRecords\":5405816,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":82,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":533,\"c4\":13529340,\"c5\":3437},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273089,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00016-02edd1f4-ee78-413e-a0af-0f2b906d2a27-c000.snappy.parquet","partitionValues":{},"size":51544169,"modificationTime":1543751770000,"dataChange":true,"stats":"{\"numRecords\":5409479,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":80,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":650,\"c4\":13398960,\"c5\":809},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1271769,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00017-a28f200c-53c3-4646-9588-6e91643726a9-c000.snappy.parquet","partitionValues":{},"size":51550346,"modificationTime":1543751771000,"dataChange":true,"stats":"{\"numRecords\":5408366,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":68,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":926,\"c4\":13500200,\"c5\":579},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273524,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00018-2d20ae02-2819-469c-b291-77312ba2938d-c000.snappy.parquet","partitionValues":{},"size":51147934,"modificationTime":1543751770000,"dataChange":true,"stats":"{\"numRecords\":5406016,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":104,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":533,\"c4\":13428660,\"c5\":3437},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273443,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00019-cc2c0e47-58ca-4c91-b783-7ee247f5e993-c000.snappy.parquet","partitionValues":{},"size":51557341,"modificationTime":1543751770000,"dataChange":true,"stats":"{\"numRecords\":5406483,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":3,\"c4\":107,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":500,\"c4\":13500700,\"c5\":1331},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272495,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00020-1627c301-a463-41d5-8c56-36f91eada362-c000.snappy.parquet","partitionValues":{},"size":51324794,"modificationTime":1543751774000,"dataChange":true,"stats":"{\"numRecords\":5410197,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":510,\"c4\":13496520,\"c5\":1385},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273504,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00021-3a193aeb-4e41-4dff-8a6d-d9d743bd401b-c000.snappy.parquet","partitionValues":{},"size":51470205,"modificationTime":1543751774000,"dataChange":true,"stats":"{\"numRecords\":5407396,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":500,\"c4\":13518820,\"c5\":898},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273349,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00022-24d61281-d7ae-43b0-9ba1-e6e72e6fdf8f-c000.snappy.parquet","partitionValues":{},"size":51477655,"modificationTime":1543751774000,"dataChange":true,"stats":"{\"numRecords\":5405801,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926010,\"c2\":10403,\"c3\":700,\"c4\":13494840,\"c5\":3106},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273468,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00023-ecca1e52-69c7-4494-b44c-eef7bf0c2a45-c000.snappy.parquet","partitionValues":{},"size":51536465,"modificationTime":1543751774000,"dataChange":true,"stats":"{\"numRecords\":5405150,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":56,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":567,\"c4\":13466680,\"c5\":1342},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1271905,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00024-b88869d2-b679-47e6-a9ab-7a434920d7ff-c000.snappy.parquet","partitionValues":{},"size":51531138,"modificationTime":1543751780000,"dataChange":true,"stats":"{\"numRecords\":5405258,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":85,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":637,\"c4\":13518320,\"c5\":3631},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272127,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00025-3944d9b3-15bb-439e-b76c-ee7bf5f3f8a5-c000.snappy.parquet","partitionValues":{},"size":51502406,"modificationTime":1543751779000,"dataChange":true,"stats":"{\"numRecords\":5405803,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":106,\"c5\":0},\"maxValues\":{\"c1\":3926009,\"c2\":10403,\"c3\":500,\"c4\":13501220,\"c5\":4098},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1271991,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00026-c36583b2-7d88-4958-bd26-f4e1760056bc-c000.snappy.parquet","partitionValues":{},"size":51513942,"modificationTime":1543751781000,"dataChange":true,"stats":"{\"numRecords\":5407824,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":94,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":500,\"c4\":13451700,\"c5\":750},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1271727,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00027-13d43c61-e980-476b-a537-f327a9893d36-c000.snappy.parquet","partitionValues":{},"size":51367886,"modificationTime":1543751780000,"dataChange":true,"stats":"{\"numRecords\":5408494,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":116,\"c5\":0},\"maxValues\":{\"c1\":3926010,\"c2\":10403,\"c3\":510,\"c4\":13528280,\"c5\":1391},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272980,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00028-5a8e0145-ada8-47ca-be92-b3dac8b18043-c000.snappy.parquet","partitionValues":{},"size":51478477,"modificationTime":1543751782000,"dataChange":true,"stats":"{\"numRecords\":5406713,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":72,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":915,\"c4\":13517760,\"c5\":3497},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273518,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00029-c7fc0a9a-9318-46eb-b130-e9a2209de1cd-c000.snappy.parquet","partitionValues":{},"size":51464162,"modificationTime":1543751783000,"dataChange":true,"stats":"{\"numRecords\":5408519,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":96,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":476,\"c4\":12926380,\"c5\":1411},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273446,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00030-21cc41eb-f27a-4e79-b943-89e55e6304be-c000.snappy.parquet","partitionValues":{},"size":51471764,"modificationTime":1543751783000,"dataChange":true,"stats":"{\"numRecords\":5406383,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":650,\"c4\":13489860,\"c5\":1640},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272321,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00031-f7460e47-557e-46cb-9ca5-273153f527a6-c000.snappy.parquet","partitionValues":{},"size":51529154,"modificationTime":1543751782000,"dataChange":true,"stats":"{\"numRecords\":5406612,\"minValues\":{\"c1\":62889,\"c2\":1,\"c3\":3,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926009,\"c2\":10403,\"c3\":500,\"c4\":13467240,\"c5\":3561},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273023,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00032-58710500-0a8c-4dff-bf76-0e3e414169cd-c000.snappy.parquet","partitionValues":{},"size":51397207,"modificationTime":1543751789000,"dataChange":true,"stats":"{\"numRecords\":5408934,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":500,\"c4\":13495980,\"c5\":3631},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1275291,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00033-0e1d4307-c2c2-4280-8e8f-fac317b1abf7-c000.snappy.parquet","partitionValues":{},"size":51506234,"modificationTime":1543751790000,"dataChange":true,"stats":"{\"numRecords\":5406492,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":56,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":567,\"c4\":13523080,\"c5\":3561},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273016,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00034-71352935-c929-4aeb-8ed0-e843ca7b38e5-c000.snappy.parquet","partitionValues":{},"size":51413162,"modificationTime":1543751790000,"dataChange":true,"stats":"{\"numRecords\":5407620,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":105,\"c5\":0},\"maxValues\":{\"c1\":3926009,\"c2\":10403,\"c3\":700,\"c4\":13515680,\"c5\":70},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1271535,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00035-a8380fbd-20a0-4134-80bb-a42a092d519c-c000.snappy.parquet","partitionValues":{},"size":50939362,"modificationTime":1543751791000,"dataChange":true,"stats":"{\"numRecords\":5405403,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":81,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":543,\"c4\":13494280,\"c5\":4098},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273197,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00036-cd8c8e25-291f-4bad-89f5-36ccaaa3b303-c000.snappy.parquet","partitionValues":{},"size":51361043,"modificationTime":1543751796000,"dataChange":true,"stats":"{\"numRecords\":5406991,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":84,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":500,\"c4\":13519880,\"c5\":1451},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273024,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00037-2b588e22-ab2b-46e0-bc41-4dc6de23ca93-c000.snappy.parquet","partitionValues":{},"size":51269317,"modificationTime":1543751794000,"dataChange":true,"stats":"{\"numRecords\":5406956,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":65,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":533,\"c4\":13528800,\"c5\":4229},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273087,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00038-87aa3375-727c-43d5-a5fe-3a8f96f9a9de-c000.snappy.parquet","partitionValues":{},"size":51353055,"modificationTime":1543751796000,"dataChange":true,"stats":"{\"numRecords\":5406147,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":115,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":500,\"c4\":13512440,\"c5\":3437},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272972,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00039-b773f0bf-da86-4416-8e13-ac9b65b4fe6e-c000.snappy.parquet","partitionValues":{},"size":51359248,"modificationTime":1543751795000,"dataChange":true,"stats":"{\"numRecords\":5408686,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":3,\"c4\":92,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":500,\"c4\":13460520,\"c5\":501},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272968,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00040-ab3b4492-d9e6-4422-8265-dea45b93cb81-c000.snappy.parquet","partitionValues":{},"size":51277753,"modificationTime":1543751801000,"dataChange":true,"stats":"{\"numRecords\":5401257,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":600,\"c4\":13469980,\"c5\":643},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1271216,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00041-8d54afc4-a461-4082-a498-841f30632b5e-c000.snappy.parquet","partitionValues":{},"size":51461096,"modificationTime":1543751802000,"dataChange":true,"stats":"{\"numRecords\":5403471,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":3,\"c4\":61,\"c5\":0},\"maxValues\":{\"c1\":3926010,\"c2\":10403,\"c3\":500,\"c4\":13298060,\"c5\":70},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1271898,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00042-0676f4e3-d324-481a-b219-8d947b827b7b-c000.snappy.parquet","partitionValues":{},"size":51369131,"modificationTime":1543751802000,"dataChange":true,"stats":"{\"numRecords\":5404791,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":85,\"c5\":0},\"maxValues\":{\"c1\":3926009,\"c2\":10403,\"c3\":510,\"c4\":13515160,\"c5\":1051},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272098,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00043-1801422a-acfe-4c80-9726-9bcc23e55a26-c000.snappy.parquet","partitionValues":{},"size":51190015,"modificationTime":1543751803000,"dataChange":true,"stats":"{\"numRecords\":5405648,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":100,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":533,\"c4\":13458400,\"c5\":70},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272386,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00044-629fe344-921c-400a-9990-da75bef26a19-c000.snappy.parquet","partitionValues":{},"size":51442688,"modificationTime":1543751802000,"dataChange":true,"stats":"{\"numRecords\":5400887,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":56,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":650,\"c4\":13493780,\"c5\":3380},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272601,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00045-c866bd8d-a710-4aee-8afb-5e8025b222d8-c000.snappy.parquet","partitionValues":{},"size":51268063,"modificationTime":1543751805000,"dataChange":true,"stats":"{\"numRecords\":5406849,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":84,\"c5\":0},\"maxValues\":{\"c1\":3926009,\"c2\":10403,\"c3\":500,\"c4\":13498600,\"c5\":1391},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273642,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00046-a307d8d8-3d33-49c2-8db6-6696fa4eab55-c000.snappy.parquet","partitionValues":{},"size":51195796,"modificationTime":1543751805000,"dataChange":true,"stats":"{\"numRecords\":5409172,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":2,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":3926009,\"c2\":10403,\"c3\":533,\"c4\":13529860,\"c5\":629},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272474,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00047-f76157ee-4193-469f-a628-a8d6c6e3659b-c000.snappy.parquet","partitionValues":{},"size":51163868,"modificationTime":1543751805000,"dataChange":true,"stats":"{\"numRecords\":5408311,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":1,\"c4\":86,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":606,\"c4\":13413120,\"c5\":1451},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1273288,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00048-e4f57059-7b5f-4f30-bf4d-15a35794025c-c000.snappy.parquet","partitionValues":{},"size":51230503,"modificationTime":1543751810000,"dataChange":true,"stats":"{\"numRecords\":5405310,\"minValues\":{\"c1\":62886,\"c2\":1,\"c3\":0,\"c4\":67,\"c5\":0},\"maxValues\":{\"c1\":3926011,\"c2\":10403,\"c3\":650,\"c4\":13522000,\"c5\":3278},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1272922,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00049-2850b901-2dbf-406c-8ffe-991c2479974d-c000.snappy.parquet","partitionValues":{},"size":59455581,"modificationTime":1543751811000,"dataChange":true,"stats":"{\"numRecords\":6249227,\"minValues\":{\"c1\":2,\"c2\":1,\"c3\":2,\"c4\":71,\"c5\":0},\"maxValues\":{\"c1\":3926010,\"c2\":10403,\"c3\":580,\"c4\":13455500,\"c5\":3380},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1551238,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00050-137995d3-bd8e-434b-a2b1-d77b75611cef-c000.snappy.parquet","partitionValues":{},"size":18663521,"modificationTime":1543751807000,"dataChange":true,"stats":"{\"numRecords\":2542526,\"minValues\":{\"c1\":2,\"c2\":1,\"c3\":2,\"c4\":60,\"c5\":0},\"maxValues\":{\"c1\":62644,\"c2\":2244,\"c3\":500,\"c4\":4410640,\"c5\":66},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":830808,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00051-64f8c21a-9ab8-4d0f-bbe6-a4774d9ffbbd-c000.snappy.parquet","partitionValues":{},"size":4988629,"modificationTime":1543751806000,"dataChange":true,"stats":"{\"numRecords\":664689,\"minValues\":{\"c1\":40095,\"c2\":1,\"c3\":7,\"c4\":120,\"c5\":0},\"maxValues\":{\"c1\":62644,\"c2\":2244,\"c3\":347,\"c4\":809320,\"c5\":66},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":220020,\"c4\":0,\"c5\":0}}"}}


update test_db.test_tbl set c3 = 0 where c1 = 2;

databricks fs ls -l dbfs:/user/hive/warehouse/test_db.db/test_tbl/

dir          0  _delta_log
file  51926603  part-00000-1426c3ce-b229-483a-b77e-758462e6431b-c000.snappy.parquet
file  59455585  part-00000-5357c4d4-dc80-4c16-87b3-a876da395d80-c000.snappy.parquet
file  18663525  part-00001-5eb0fcc7-183c-4078-81ae-558a35be932e-c000.snappy.parquet
file  51931083  part-00001-89279585-72ed-4a93-9332-33b992ba7dea-c000.snappy.parquet
file  51836760  part-00002-d7d44c81-bc00-4863-ae53-b13baf0a8ec6-c000.snappy.parquet
file  51765672  part-00003-fbdf50d1-8166-4909-aaa4-4c41bb6a28e0-c000.snappy.parquet
file  51645701  part-00004-46fd54a1-c958-4f7b-b4f1-720cca087dbc-c000.snappy.parquet
file  51636215  part-00005-6bc7aa3a-9bca-4ec3-8a95-9fe5c7bcadd7-c000.snappy.parquet
file  51574509  part-00006-b9c010e6-9017-4a0e-853c-887dec591b73-c000.snappy.parquet
file  51673471  part-00007-31d54d8c-99a5-45a8-82ce-875e3d822b4c-c000.snappy.parquet
file  51712654  part-00008-a5dc71ac-69dc-4ebf-b317-55f8bfc275bb-c000.snappy.parquet
file  51574726  part-00009-261340a5-fcec-406d-98a0-83146ad47189-c000.snappy.parquet
file  51616103  part-00010-3ad706be-f215-4c81-8ee5-4d6834714f65-c000.snappy.parquet
file  51176632  part-00011-a4b84205-a59e-400a-975f-70c9f6c3de12-c000.snappy.parquet
file  51619480  part-00012-80c19ac4-e812-46a0-9507-d042bcd34110-c000.snappy.parquet
file  51482600  part-00013-5d9de6ce-fb01-418f-ae6f-6181e65bed66-c000.snappy.parquet
file  51552115  part-00014-2e547729-6858-49d1-a3b1-4b6b335a8da2-c000.snappy.parquet
file  51568260  part-00015-2e5696b9-9f6d-4f0c-bc9c-e1b63cd587c3-c000.snappy.parquet
file  51544169  part-00016-02edd1f4-ee78-413e-a0af-0f2b906d2a27-c000.snappy.parquet
file  51550346  part-00017-a28f200c-53c3-4646-9588-6e91643726a9-c000.snappy.parquet
file  51147934  part-00018-2d20ae02-2819-469c-b291-77312ba2938d-c000.snappy.parquet
file  51557341  part-00019-cc2c0e47-58ca-4c91-b783-7ee247f5e993-c000.snappy.parquet
file  51324794  part-00020-1627c301-a463-41d5-8c56-36f91eada362-c000.snappy.parquet
file  51470205  part-00021-3a193aeb-4e41-4dff-8a6d-d9d743bd401b-c000.snappy.parquet
file  51477655  part-00022-24d61281-d7ae-43b0-9ba1-e6e72e6fdf8f-c000.snappy.parquet
file  51536465  part-00023-ecca1e52-69c7-4494-b44c-eef7bf0c2a45-c000.snappy.parquet
file  51531138  part-00024-b88869d2-b679-47e6-a9ab-7a434920d7ff-c000.snappy.parquet
file  51502406  part-00025-3944d9b3-15bb-439e-b76c-ee7bf5f3f8a5-c000.snappy.parquet
file  51513942  part-00026-c36583b2-7d88-4958-bd26-f4e1760056bc-c000.snappy.parquet
file  51367886  part-00027-13d43c61-e980-476b-a537-f327a9893d36-c000.snappy.parquet
file  51478477  part-00028-5a8e0145-ada8-47ca-be92-b3dac8b18043-c000.snappy.parquet
file  51464162  part-00029-c7fc0a9a-9318-46eb-b130-e9a2209de1cd-c000.snappy.parquet
file  51471764  part-00030-21cc41eb-f27a-4e79-b943-89e55e6304be-c000.snappy.parquet
file  51529154  part-00031-f7460e47-557e-46cb-9ca5-273153f527a6-c000.snappy.parquet
file  51397207  part-00032-58710500-0a8c-4dff-bf76-0e3e414169cd-c000.snappy.parquet
file  51506234  part-00033-0e1d4307-c2c2-4280-8e8f-fac317b1abf7-c000.snappy.parquet
file  51413162  part-00034-71352935-c929-4aeb-8ed0-e843ca7b38e5-c000.snappy.parquet
file  50939362  part-00035-a8380fbd-20a0-4134-80bb-a42a092d519c-c000.snappy.parquet
file  51361043  part-00036-cd8c8e25-291f-4bad-89f5-36ccaaa3b303-c000.snappy.parquet
file  51269317  part-00037-2b588e22-ab2b-46e0-bc41-4dc6de23ca93-c000.snappy.parquet
file  51353055  part-00038-87aa3375-727c-43d5-a5fe-3a8f96f9a9de-c000.snappy.parquet
file  51359248  part-00039-b773f0bf-da86-4416-8e13-ac9b65b4fe6e-c000.snappy.parquet
file  51277753  part-00040-ab3b4492-d9e6-4422-8265-dea45b93cb81-c000.snappy.parquet
file  51461096  part-00041-8d54afc4-a461-4082-a498-841f30632b5e-c000.snappy.parquet
file  51369131  part-00042-0676f4e3-d324-481a-b219-8d947b827b7b-c000.snappy.parquet
file  51190015  part-00043-1801422a-acfe-4c80-9726-9bcc23e55a26-c000.snappy.parquet
file  51442688  part-00044-629fe344-921c-400a-9990-da75bef26a19-c000.snappy.parquet
file  51268063  part-00045-c866bd8d-a710-4aee-8afb-5e8025b222d8-c000.snappy.parquet
file  51195796  part-00046-a307d8d8-3d33-49c2-8db6-6696fa4eab55-c000.snappy.parquet
file  51163868  part-00047-f76157ee-4193-469f-a628-a8d6c6e3659b-c000.snappy.parquet
file  51230503  part-00048-e4f57059-7b5f-4f30-bf4d-15a35794025c-c000.snappy.parquet
file  59455581  part-00049-2850b901-2dbf-406c-8ffe-991c2479974d-c000.snappy.parquet
file  18663521  part-00050-137995d3-bd8e-434b-a2b1-d77b75611cef-c000.snappy.parquet
file   4988629  part-00051-64f8c21a-9ab8-4d0f-bbe6-a4774d9ffbbd-c000.snappy.parquet

databricks fs ls -l dbfs:/user/hive/warehouse/test_db.db/test_tbl/_delta_log

file     96  00000000000000000000.crc
file  23092  00000000000000000000.json
file     96  00000000000000000001.crc
file   1372  00000000000000000001.json

00000000000000000001.crc
{"tableSizeBytes":2605065702,"numFiles":52,"numMetadata":1,"numProtocol":1,"numTransactions":0}

00000000000000000001.json
{"commitInfo":{"timestamp":1543752370946,"userId":"6605856514319898","userName":"xxx@xxx","operation":"UPDATE","operationParameters":{"predicate":"(c1#2309 = 2)"},"notebook":{"notebookId":"2221810962482344"},"clusterId":"1126-094127-pods946"}}
{"remove":{"path":"part-00049-2850b901-2dbf-406c-8ffe-991c2479974d-c000.snappy.parquet","deletionTimestamp":1543752352667,"dataChange":true}}
{"remove":{"path":"part-00050-137995d3-bd8e-434b-a2b1-d77b75611cef-c000.snappy.parquet","deletionTimestamp":1543752352667,"dataChange":true}}
{"add":{"path":"part-00000-5357c4d4-dc80-4c16-87b3-a876da395d80-c000.snappy.parquet","partitionValues":{},"size":59455585,"modificationTime":1543752370000,"dataChange":true,"stats":"{\"numRecords\":6249227,\"minValues\":{\"c1\":2,\"c2\":1,\"c3\":0,\"c4\":71,\"c5\":0},\"maxValues\":{\"c1\":3926010,\"c2\":10403,\"c3\":580,\"c4\":13455500,\"c5\":3380},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1551238,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00001-5eb0fcc7-183c-4078-81ae-558a35be932e-c000.snappy.parquet","partitionValues":{},"size":18663525,"modificationTime":1543752365000,"dataChange":true,"stats":"{\"numRecords\":2542526,\"minValues\":{\"c1\":2,\"c2\":1,\"c3\":0,\"c4\":60,\"c5\":0},\"maxValues\":{\"c1\":62644,\"c2\":2244,\"c3\":500,\"c4\":4410640,\"c5\":66},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":830808,\"c4\":0,\"c5\":0}}"}}


delete from test_db.test_tbl where c1 = 16;

databricks fs ls -l dbfs:/user/hive/warehouse/test_db.db/test_tbl/

dir          0  _delta_log
file  51926603  part-00000-1426c3ce-b229-483a-b77e-758462e6431b-c000.snappy.parquet
file  59455585  part-00000-5357c4d4-dc80-4c16-87b3-a876da395d80-c000.snappy.parquet
file  59430649  part-00000-7dddda62-8837-4909-9183-fa4075bc1c1b-c000.snappy.parquet
file  18663525  part-00001-5eb0fcc7-183c-4078-81ae-558a35be932e-c000.snappy.parquet
file  51931083  part-00001-89279585-72ed-4a93-9332-33b992ba7dea-c000.snappy.parquet
file  18664701  part-00001-91318462-059b-43ff-99da-12b9c187c465-c000.snappy.parquet
file  51836760  part-00002-d7d44c81-bc00-4863-ae53-b13baf0a8ec6-c000.snappy.parquet
file  51765672  part-00003-fbdf50d1-8166-4909-aaa4-4c41bb6a28e0-c000.snappy.parquet
file  51645701  part-00004-46fd54a1-c958-4f7b-b4f1-720cca087dbc-c000.snappy.parquet
file  51636215  part-00005-6bc7aa3a-9bca-4ec3-8a95-9fe5c7bcadd7-c000.snappy.parquet
file  51574509  part-00006-b9c010e6-9017-4a0e-853c-887dec591b73-c000.snappy.parquet
file  51673471  part-00007-31d54d8c-99a5-45a8-82ce-875e3d822b4c-c000.snappy.parquet
file  51712654  part-00008-a5dc71ac-69dc-4ebf-b317-55f8bfc275bb-c000.snappy.parquet
file  51574726  part-00009-261340a5-fcec-406d-98a0-83146ad47189-c000.snappy.parquet
file  51616103  part-00010-3ad706be-f215-4c81-8ee5-4d6834714f65-c000.snappy.parquet
file  51176632  part-00011-a4b84205-a59e-400a-975f-70c9f6c3de12-c000.snappy.parquet
file  51619480  part-00012-80c19ac4-e812-46a0-9507-d042bcd34110-c000.snappy.parquet
file  51482600  part-00013-5d9de6ce-fb01-418f-ae6f-6181e65bed66-c000.snappy.parquet
file  51552115  part-00014-2e547729-6858-49d1-a3b1-4b6b335a8da2-c000.snappy.parquet
file  51568260  part-00015-2e5696b9-9f6d-4f0c-bc9c-e1b63cd587c3-c000.snappy.parquet
file  51544169  part-00016-02edd1f4-ee78-413e-a0af-0f2b906d2a27-c000.snappy.parquet
file  51550346  part-00017-a28f200c-53c3-4646-9588-6e91643726a9-c000.snappy.parquet
file  51147934  part-00018-2d20ae02-2819-469c-b291-77312ba2938d-c000.snappy.parquet
file  51557341  part-00019-cc2c0e47-58ca-4c91-b783-7ee247f5e993-c000.snappy.parquet
file  51324794  part-00020-1627c301-a463-41d5-8c56-36f91eada362-c000.snappy.parquet
file  51470205  part-00021-3a193aeb-4e41-4dff-8a6d-d9d743bd401b-c000.snappy.parquet
file  51477655  part-00022-24d61281-d7ae-43b0-9ba1-e6e72e6fdf8f-c000.snappy.parquet
file  51536465  part-00023-ecca1e52-69c7-4494-b44c-eef7bf0c2a45-c000.snappy.parquet
file  51531138  part-00024-b88869d2-b679-47e6-a9ab-7a434920d7ff-c000.snappy.parquet
file  51502406  part-00025-3944d9b3-15bb-439e-b76c-ee7bf5f3f8a5-c000.snappy.parquet
file  51513942  part-00026-c36583b2-7d88-4958-bd26-f4e1760056bc-c000.snappy.parquet
file  51367886  part-00027-13d43c61-e980-476b-a537-f327a9893d36-c000.snappy.parquet
file  51478477  part-00028-5a8e0145-ada8-47ca-be92-b3dac8b18043-c000.snappy.parquet
file  51464162  part-00029-c7fc0a9a-9318-46eb-b130-e9a2209de1cd-c000.snappy.parquet
file  51471764  part-00030-21cc41eb-f27a-4e79-b943-89e55e6304be-c000.snappy.parquet
file  51529154  part-00031-f7460e47-557e-46cb-9ca5-273153f527a6-c000.snappy.parquet
file  51397207  part-00032-58710500-0a8c-4dff-bf76-0e3e414169cd-c000.snappy.parquet
file  51506234  part-00033-0e1d4307-c2c2-4280-8e8f-fac317b1abf7-c000.snappy.parquet
file  51413162  part-00034-71352935-c929-4aeb-8ed0-e843ca7b38e5-c000.snappy.parquet
file  50939362  part-00035-a8380fbd-20a0-4134-80bb-a42a092d519c-c000.snappy.parquet
file  51361043  part-00036-cd8c8e25-291f-4bad-89f5-36ccaaa3b303-c000.snappy.parquet
file  51269317  part-00037-2b588e22-ab2b-46e0-bc41-4dc6de23ca93-c000.snappy.parquet
file  51353055  part-00038-87aa3375-727c-43d5-a5fe-3a8f96f9a9de-c000.snappy.parquet
file  51359248  part-00039-b773f0bf-da86-4416-8e13-ac9b65b4fe6e-c000.snappy.parquet
file  51277753  part-00040-ab3b4492-d9e6-4422-8265-dea45b93cb81-c000.snappy.parquet
file  51461096  part-00041-8d54afc4-a461-4082-a498-841f30632b5e-c000.snappy.parquet
file  51369131  part-00042-0676f4e3-d324-481a-b219-8d947b827b7b-c000.snappy.parquet
file  51190015  part-00043-1801422a-acfe-4c80-9726-9bcc23e55a26-c000.snappy.parquet
file  51442688  part-00044-629fe344-921c-400a-9990-da75bef26a19-c000.snappy.parquet
file  51268063  part-00045-c866bd8d-a710-4aee-8afb-5e8025b222d8-c000.snappy.parquet
file  51195796  part-00046-a307d8d8-3d33-49c2-8db6-6696fa4eab55-c000.snappy.parquet
file  51163868  part-00047-f76157ee-4193-469f-a628-a8d6c6e3659b-c000.snappy.parquet
file  51230503  part-00048-e4f57059-7b5f-4f30-bf4d-15a35794025c-c000.snappy.parquet
file  59455581  part-00049-2850b901-2dbf-406c-8ffe-991c2479974d-c000.snappy.parquet
file  18663521  part-00050-137995d3-bd8e-434b-a2b1-d77b75611cef-c000.snappy.parquet
file   4988629  part-00051-64f8c21a-9ab8-4d0f-bbe6-a4774d9ffbbd-c000.snappy.parquet

databricks fs ls -l dbfs:/user/hive/warehouse/test_db.db/test_tbl/_delta_log
file     96  00000000000000000000.crc
file  23092  00000000000000000000.json
file     96  00000000000000000001.crc
file   1372  00000000000000000001.json
file     96  00000000000000000002.crc
file   1393  00000000000000000002.json

00000000000000000002.crc
{"tableSizeBytes":2605041942,"numFiles":52,"numMetadata":1,"numProtocol":1,"numTransactions":0}

00000000000000000002.json
{"commitInfo":{"timestamp":1543752787300,"userId":"6605856514319898","userName":"xxx@xxx","operation":"DELETE","operationParameters":{"predicate":"[\"(test_db.test_tbl.`c1` = 16)\"]"},"notebook":{"notebookId":"2221810962482344"},"clusterId":"1126-094127-pods946"}}
{"remove":{"path":"part-00001-5eb0fcc7-183c-4078-81ae-558a35be932e-c000.snappy.parquet","deletionTimestamp":1543752787298,"dataChange":true}}
{"remove":{"path":"part-00000-5357c4d4-dc80-4c16-87b3-a876da395d80-c000.snappy.parquet","deletionTimestamp":1543752787298,"dataChange":true}}
{"add":{"path":"part-00000-7dddda62-8837-4909-9183-fa4075bc1c1b-c000.snappy.parquet","partitionValues":{},"size":59430649,"modificationTime":1543752787000,"dataChange":true,"stats":"{\"numRecords\":6249127,\"minValues\":{\"c1\":2,\"c2\":1,\"c3\":0,\"c4\":71,\"c5\":0},\"maxValues\":{\"c1\":3926010,\"c2\":10403,\"c3\":580,\"c4\":13455500,\"c5\":3380},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":1551191,\"c4\":0,\"c5\":0}}"}}
{"add":{"path":"part-00001-91318462-059b-43ff-99da-12b9c187c465-c000.snappy.parquet","partitionValues":{},"size":18664701,"modificationTime":1543752782000,"dataChange":true,"stats":"{\"numRecords\":2542354,\"minValues\":{\"c1\":2,\"c2\":1,\"c3\":0,\"c4\":60,\"c5\":0},\"maxValues\":{\"c1\":62644,\"c2\":2244,\"c3\":500,\"c4\":4410640,\"c5\":66},\"nullCount\":{\"c1\":0,\"c2\":0,\"c3\":830732,\"c4\":0,\"c5\":0}}"}}

Обратите внимание еще на статистику MIN/MAX для каждого файла... используется для pruning'a...

Ещё инфа
https://docs.databricks.com/delta/optimizations.html
https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html

...

Рейтинг:

0 / 0

02.12.2018, 15:37

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39817297

Glebanski

Участник

Откуда: Msk ->NL

Сообщения: 238

Рейтинг: 0 / 0

churupaha,

Databricks кооперируется с Информатикой
https://www.businesswire.com/news/home/20190521005827/en/Databricks-Informatica-Partner-Accelerate-Development-Intelligent-Data

Ну все, рынок энтерпрайза эти двое теперь точно подомнут.

ЗЫ: Юзаю Databricks пару недель. Пока впечатления хорошие. Щас пробую Datalake на нем сбацать.

...

Рейтинг:

0 / 0

23.05.2019, 17:48

| Ответить | Цитировать | Написать

25 сообщений из 158, страница 4 из 7

все

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Data Lake как Staging Area

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=49&msg=39738374&tid=1857084]:	0ms
get settings:	10ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	42ms
get topic data:	11ms
get forum data:	3ms
get page messages:	62ms
get tp. blocked users:	1ms
others:	235ms

total:	384ms