powered by simpleCommunicator - 2.0.48     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Cassandra. Проектирование модели данных.
9 сообщений из 9, страница 1 из 1
Cassandra. Проектирование модели данных.
    #38754802
TepKuH
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги,
Хочется запилить веб-сервис который позволял бы пользователям загружать туда любое кол-во EXCEL файлов и любого размера.
Дальше пользователь объединяет свои таблицы как ему захочется и строит какие хочет отчеты, графики, OLAP-кубы и прочее.
Т.е. своего рода BI система в облаке.

Видится в качестве решения этой проблемы использовать Cassandra, со следующими сущностями:
USER, TABLE, COLUMN_NAME, COLUMN_TYPE, ROW.
Вангуется такая средная температура по больнице:
10 000 USER
100 TABLE per USER
10 COLUMN_NAME per TABLE
1 COLUMN_TYPE per COLUMN_NAME
5 000 ROW per TABLE.
т.е. вангуется таблица размером

10 000 * 100 * 10 * 5 000 = 50 000 000 000 строк в таблице.

Собственно есть три вопроса:
1) Какой выбрать распределительный и кластерный ключ у такой "таблицы"? (мну думается USER + TABLE соответственно)
2) Есть ли по вашему мнение необходимость разбивать эту модель данных на допустим:
a) USER, TABLE, COLUMN_NAME, COLUMN_TYPE
b) USER, TABLE, COLUMN_NAME, ROW
3) Как с перфомансом у касандры на таких объемах? Использовать вначале будет одна железяка на 16 GB RAM, 4 CPU

Конструктивная критика приветствуется.
...
Рейтинг: 0 / 0
Cassandra. Проектирование модели данных.
    #38754888
gandjustas
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
TepKuH,

Простите, долго смеялся.


Как в вашей системе сделать простой отчет, который строит сводную таблицу продаж (суммы) с группировкой по товарам в строках и периодами в столбцах (иерархически)?

Просто покажите запрос, который будет данные выбирать для этого?
Для экселя это элементарная задача, даже без powerpivot.

Кстати все что вы пишите прекрасно делается в самом excel, зачем ему ваша система?
...
Рейтинг: 0 / 0
Cassandra. Проектирование модели данных.
    #38754993
TepKuH
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gandjustasПростите, долго смеялся.

Рад, что удалось вам продлить жизнь :)

gandjustasКак в вашей системе сделать простой отчет, который строит сводную таблицу продаж (суммы) с группировкой по товарам в строках и периодами в столбцах (иерархически)?
Просто покажите запрос, который будет данные выбирать для этого?

А он SELECT'ом будет строится :)
Шаг первый: Произойдет выборка всех таблиц пользователя.
Шаг второй: Траспонируются данные и создадутся ORM сущности в JVM (виртуальная база данных в памяти). Специально для DBA упрощу, создадутся временные таблицы, данные траспонируются и запишутся в эти временные таблицы. Естественно вся эта магия от пользователя будет скрыта, он будет видеть только свои таблицы в привычном для него реляционном виде.
Шаг три: Для DBA поясняю что случится SELECT как из обычных реляционных сущностей.

gandjustasДля экселя это элементарная задача, даже без powerpivot.

На excel'е не заработать, если ты конечно не Билл Гейтс :)
Bussiness Case есть, не сумневайтесь.
...
Рейтинг: 0 / 0
Cassandra. Проектирование модели данных.
    #38754995
TepKuH
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
TepKuHА он SELECT'ом будет строится :)

А он НЕ SELECT'ом будет строится :)
...
Рейтинг: 0 / 0
Cassandra. Проектирование модели данных.
    #38755003
TepKuH
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gandjustas,

Кстати спасибо за критику, как только я написал вам как делать выборку, моя идея в голове обрела физическую реализацию пусть и пока не в коде :) но хотя бы на форуме
...
Рейтинг: 0 / 0
Cassandra. Проектирование модели данных.
    #38755031
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
TepKuHНа excel'е не заработать, если ты конечно не Билл Гейтсвам в соседнем форуме уже намекали про юзер кейсы... в чём фишка вашего сервиса, почему пользователь должен вам платить деньги?
а то вы: "ORM... JVM" чем ваш лисапед лисапедее кучи аналогов?
...
Рейтинг: 0 / 0
Cassandra. Проектирование модели данных.
    #38755096
TepKuH
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушкав чём фишка вашего сервиса, почему пользователь должен вам платить деньги?
а то вы: "ORM... JVM" чем ваш лисапед лисапедее кучи аналогов?
Походу я попал на вечеринку бизнес-аналитиков. И стартаперов :)

Я же в соседней ветки сказал, что делаю конкурента и предоставил список их. Только они работают на рынке среднего-крупного бизнеса, а у меня же массовый продукт.
Если вы с моими будущим конкурентами работали, то возможно знаете их минусы. Самый лежащий на поверхности минус я только что сказал "Если вы с ними работали..." это означает наличие в штате или привлечение консультанта. А если к тому же вы занимались внедрениями BI\ETL так же думаю понимаете проблематику бизнеса. Через какие им терни приходится проходить.
А теперь представте сервис без бизнес аналитика, без консультанта, без своры ИТ'ишников. Выгружаете туда данные и сразу майджик. Эт только одна из базовых-фичей, привлечь массового пользователя не просто, ибо он далек от ваших OLAP'ов, ETL'ей и прочей чертовщины.
...
Рейтинг: 0 / 0
Cassandra. Проектирование модели данных.
    #38755352
gandjustas
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
TepKuHНа excel'е не заработать, если ты конечно не Билл Гейтс :)
Bussiness Case есть, не сумневайтесь.

Я вам привел реальный отчет, который буквально в понедельник делал. 60к записей и эксель не поморщился.
У вас планируется 5000 строк. А оказывается вы даже выборку не знаете как делать.

То что вы описали про JVM на 60к строк на таблицу не заработает - память кончится. А вы еще хотите TepKuHпользователь объединяет свои таблицы как ему захочется.

Также учитывайте что для NoSQL баз становится проблемой когда база не влезает в память. А у вас по определению не влезает.

Имхо идея неживая. Сосредоточьтесь на релизации конкретного кейса подручными средствами, а потом думайте как это обобщить.
...
Рейтинг: 0 / 0
Cassandra. Проектирование модели данных.
    #38755357
gandjustas
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
TepKuHА теперь представте сервис без бизнес аналитика, без консультанта, без своры ИТ'ишников. Выгружаете туда данные и сразу майджик. Эт только одна из базовых-фичей, привлечь массового пользователя не просто, ибо он далек от ваших OLAP'ов, ETL'ей и прочей чертовщины.

Магию уже умеет excel делать. На сегодня excel + powerpivot + powerview +powerquery умеет все что вы написали, но гораздо лучше. И самое главное что эксель знаком чуть более, чем каждому, а ваш всемогутор будет продаваться только через откаты (как большинство BI систем).
...
Рейтинг: 0 / 0
9 сообщений из 9, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Cassandra. Проектирование модели данных.
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]