Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.) / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

8 сообщений из 8, страница 1 из 1

Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

#39584064

Александр Савинов

Участник

Сообщения: 174

Рейтинг: 0 / 0

Большинство подходов и систем обработки данных, включая SQL и map-reduce, основаны на преобразовании множеств элементов (таблиц, коллекций и т.п.), т.е. это обычно граф операций на множествах.

Bistro реализует другой поход, где вместо преобразования таблиц используются преобразования колонок с помощью трех основных операций calculate-link-accumulate. Формально, колонки это функции, т.е. вместо операций на множествах используются операции на функциях . Таким образом, преобразования данных представляются как граф операций с функциями (а не множествами), а каждая функция определяется и во время выполнения вычисляется через другие функции. Например, это могло бы выглядеть так:

Код: java

1.
2.
3.
4.
5.
6.
7.

// Определить колонки 
col1.calc(...); 
col2.link(...); 
col3.accu(...); 
colN.calc(...); 
// Вычислить все колонки 
schema.eval();

Этот подход реализован с помощью вот этой библиотеки:

Bistro: https://github.com/asavinov/bistro

Она может быть включена в системы где необходима потенциально сложная обработка данных, например, для миграции данных, импорта-экспорта, генерация отчетов, СУБД, анализ потоков и др.

Было бы интересно узнать мнение по поводу этого подхода вообще и его реализации в библиотеке Bistro в частности. Будет ли это вообще работать? Кому и где это могло быть наиболее полезно сейчас и в будущем? Что можно улучшить в данной реализации?

Ранее этот подход был реализован как веб-приложение для работы с таблицами (обсуждение здесь ) :

Data Commandr: http://dc.conceptoriented.com

...

Рейтинг:

0 / 0

14.01.2018, 23:22

| Ответить | Цитировать | Написать

Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

#39584124

bideveloper

Участник

Сообщения: 344

Рейтинг: 0 / 0

Если честно, это похоже на очень простую курсовую работу.
Как можно несколько функций, которые вы реализовали, серьезно сравнивать с SQL? Тем более, когда давно есть DAX и MDX.

...

Рейтинг:

0 / 0

15.01.2018, 04:10

| Ответить | Цитировать | Написать

Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

#39584125

bideveloper

Участник

Сообщения: 344

Рейтинг: 0 / 0

И M.

...

Рейтинг:

0 / 0

15.01.2018, 04:11

| Ответить | Цитировать | Написать

Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

#39585439

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

bideveloper, секундочку.

Допились можно все. Сам подход то живой или фантазии?

...

Рейтинг:

0 / 0

16.01.2018, 21:54

| Ответить | Цитировать | Написать

Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

#39585503

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

мигель1bideveloper, секундочку.

Допились можно все. Сам подход то живой или фантазии?угу: Maple, Matlab, Mathcad

...

Рейтинг:

0 / 0

17.01.2018, 07:54

| Ответить | Цитировать | Написать

Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

#39585532

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Александр СавиновБольшинство подходов и систем обработки данных, включая SQL и map-reduce, основаны на преобразовании множеств элементов (таблиц, коллекций и т.п.), т.е. это обычно граф операций на множествах.

SQL вообще оффтоп тут

А map-reduce это о другом. Это частный случай массивно-параллельных вычислений.
Т.е. когда один компьютер не справляется- надо параллелить вычисления на кластер.
mr это очень частный случай. spark, yarn- это поытка обощить.

Вы пишете о другом- о способе выбрать нужное подмножество данных. И аналогом является формат parquet , если я правильно понял.

...

Рейтинг:

0 / 0

17.01.2018, 09:58

| Ответить | Цитировать | Написать

Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

#39585680

Александр Савинов

Участник

Сообщения: 174

Рейтинг: 0 / 0

Alexey TominSQL вообще оффтоп тут
А я в негативном смысле, как ругательство :)

На самом деле я противопоставляю Bistro множеству подходов, основанных на операциях с множествами, включая SQL, реляционную алгебру, map-reduce ну и кучу их вариантов в разных системах. Суть этих подходов к преобразованию данных в том, что из имеющихся множеств (таблица, отношение, коллекция и т.п.) получается другое множество с помощью какой-то операции.

В Бистро вместо генерации множеств их других множеств предлагается генерировать колонки (функции) с помщью операций на них.

Например, SELECT *, c = a + b FROM T. Казалось бы все нормально. Но концептуальная проблема в том, что мы вовсе не хотим создавать новую таблицу - цель состоит в создании новой колонки. Тем не менее просто создать колонку (принципильно) невозможно - надо создавать таблицу. Если использовать map, то тоже на выходе будет создана новая коллекция с копированием всех исходных элементов. Но это можно решить, например, df.apply() в pandas.

А далее идут две следующие проблемы: 2) как связывать записи в таблицах и 3) как агрегировать данные.

Для 2) если надо связать таблицы A и B, то используется join и создается новая таблица. Опять же, проблема: я не хочу создавать третью таблицу - я хочу создать колонку в одной со ссылкой на другую. В Бистро для этого есть операция link, которая именно это и делать.

Для 3) есть group-by который тоже создает новую таблицы. Но зачем? Я не хочу новую таблицу - я хочу новую колонку, которая содержит агрегат. Бистро решает проблему с помощью операции accu - она работает иначе чем group-by.

В результате Бистро не использует join и не использует group-by и мы избавляемся от всех этих ужасов. Достаточно ли calc, link, accu - это вопрос.

Alexey TominА map-reduce это о другом.
Я использую это как паттерн обработки данных без отношения к физической (распределенной) реализации. Для последнего лучше использовать Hadoop, HDFS и т.п.

Alexey TominВы пишете о другом- о способе выбрать нужное подмножество данных. И аналогом является формат parquet , если я правильно понял.
Бистро это не о физической реализации (хотя это весьма интересно). Это логическая модель. Я не знаю деталей parquet, но я так понимаю это формат для персистентного хранения, как и другие сериализации типа arrow. Сейчас Бистро не занимается сериализацией, но это было бы очень интересно, также как распределенная обработка. Просто этот рынок уже занят и есть куча систем (Spark и т.п.), которые более или менее делают что надо. Я хочу разработать сервер для потоковой аналитики типа Kafka Streams, просто потому что здесь не так много систем (вообще нет хороших) и я хочу позиционировать это для IoT.

Запостил вчера для критики: https://news.ycombinator.com/item?id=16161673

...

Рейтинг:

0 / 0

17.01.2018, 12:12

| Ответить | Цитировать | Написать

Оцените новый подход к преобразованию данных (альтернатива map-reduce, SQL и др.)

#39585941

bideveloper

Участник

Сообщения: 344

Рейтинг: 0 / 0

Александр СавиновНапример, SELECT *, c = a + b FROM T. Казалось бы все нормально. Но концептуальная проблема в том, что мы вовсе не хотим создавать новую таблицу - цель состоит в создании новой колонки. Тем не менее просто создать колонку (принципильно) невозможно - надо создавать таблицу. Если использовать map, то тоже на выходе будет создана новая коллекция с копированием всех исходных элементов. Но это можно решить, например, df.apply() в pandas.

А далее идут две следующие проблемы: 2) как связывать записи в таблицах и 3) как агрегировать данные.

Для 2) если надо связать таблицы A и B, то используется join и создается новая таблица. Опять же, проблема: я не хочу создавать третью таблицу - я хочу создать колонку в одной со ссылкой на другую. В Бистро для этого есть операция link, которая именно это и делать.

Для 3) есть group-by который тоже создает новую таблицы. Но зачем? Я не хочу новую таблицу - я хочу новую колонку, которая содержит агрегат. Бистро решает проблему с помощью операции accu - она работает иначе чем group-by.

И чем это отличается от M в PowerBI? Там все это можно сделать с помощью очень удобного графического интерфейса.

...

Рейтинг:

0 / 0

17.01.2018, 16:22

| Ответить | Цитировать | Написать

8 сообщений из 8, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=39585680&tid=1856650]:	0ms
get settings:	11ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	51ms
get topic data:	13ms
get forum data:	3ms
get page messages:	63ms
get tp. blocked users:	2ms
others:	241ms

total:	404ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы