Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / C++ [игнор отключен] [закрыт для гостей] / Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше? / 25 сообщений из 59, страница 1 из 3
07.01.2020, 17:01
    #39911388
ZirnayaKuro4ka
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
Есть большой объем данных, которые хочется "покрутить" на предмет наличия тех или иных закономерностей. Поэтому разумеется нужны стандартные механизмы BigData, ради которых использую Python.

Но все осложняется тем, что есть и сложные зависимости, под которые нет нужных Python библиотек (например, статистика неточных совпадений в последовательности данных), поэтому кое- что придется реализовывать самостоятельно.

Но и тут не все так просто: данных очень много, поэтому если реализовывать недостающие алгоритмы на Python придется очень долго ждать выполения. Так в проекте появляется великий и могучий С++: хочется из Python вызывать код, написанный на С++, который умеет работать с массивами NumPy, которые в свою очередь отлично пережевываются встроенными механизмами BigData. Можно сказать, что я хочу, чтобы массивы NumPy были способом передачи данных между Python и C++ (как в одну сторону, так и обратно).

Например, в Python создается массив NumPy, который заполняется в С++ и передается обратно в Python. Там выполняется начальная обработка данных с помощью станадартных алгоритмов для BigData, после которой этот массив опять передается в С++ для более тонкого анализа данных. Сам способ передачи данных в обе стороны у меня реализован (с помощью Cython), непонятно только как в С++ работать с массивами NumPy.

1. Не видите ли вы каких- то ошибок в моей идее?
2. Если все ок, то как научить С++ работать с массивами NumPy?
...
Рейтинг: 0 / 0
07.01.2020, 17:17
    #39911396
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka1. Не видите ли вы каких- то ошибок в моей идее?

Вариант 1: Ты знаешь С++. В этом случае проще выкинуть питон и найти недостающие
библиотеки матана на С++, их достаточно.
Вариант 2: Ты не знаешь С++. В этом случае даже медленная реализация на питоне будет
работать меньше времени, чем ты потратишь на его изучение.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
07.01.2020, 19:44
    #39911425
Dima T
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
Может бигдату в SQL сервер какой залить? Дальше средствами SQL, а не самодельными велосипедами
...
Рейтинг: 0 / 0
07.01.2020, 22:06
    #39911450
OoCc
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka
Есть большой объем данных, которые хочется "покрутить" на предмет наличия тех или иных закономерностей. Поэтому разумеется нужны стандартные механизмы BigData, ради которых использую Python.

Но все осложняется тем, что есть и сложные зависимости, под которые нет нужных Python библиотек (например, статистика неточных совпадений в последовательности данных), поэтому кое- что придется реализовывать самостоятельно.

Но и тут не все так просто: данных очень много, поэтому если реализовывать недостающие алгоритмы на Python придется очень долго ждать выполения. Так в проекте появляется великий и могучий С++: хочется из Python вызывать код, написанный на С++, который умеет работать с массивами NumPy, которые в свою очередь отлично пережевываются встроенными механизмами BigData. Можно сказать, что я хочу, чтобы массивы NumPy были способом передачи данных между Python и C++ (как в одну сторону, так и обратно).

Например, в Python создается массив NumPy, который заполняется в С++ и передается обратно в Python. Там выполняется начальная обработка данных с помощью станадартных алгоритмов для BigData, после которой этот массив опять передается в С++ для более тонкого анализа данных. Сам способ передачи данных в обе стороны у меня реализован (с помощью Cython), непонятно только как в С++ работать с массивами NumPy.

1. Не видите ли вы каких- то ошибок в моей идее?
2. Если все ок, то как научить С++ работать с массивами NumPy?

Как биг есть биг? Я бы использовал Amazon Redshift. И Питон там есть и Сиквэл и распараллеливание зависящее только от глубины кармана.
...
Рейтинг: 0 / 0
07.01.2020, 23:07
    #39911454
bk0010
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
Dimitry Sibiryakov

ZirnayaKuro4ka1. Не видите ли вы каких- то ошибок в моей идее?

Вариант 1: Ты знаешь С++. В этом случае проще выкинуть питон и найти недостающие
библиотеки матана на С++, их достаточно.
Если у вас вариант 1, то начать рекомендую с Intel Math Kernel Library - работает весьма быстро, если там есть то, что вам надо, то очень повезло.
...
Рейтинг: 0 / 0
08.01.2020, 06:14
    #39911463
White Owl
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
bk0010
Если у вас вариант 1, то начать рекомендую с Intel Math Kernel Library - работает весьма быстро, если там есть то, что вам надо, то очень повезло.
Не, у него как раз не тот вариант. А NumPy который уже используется TC это питоний враппер над Intel MKL.
...
Рейтинг: 0 / 0
08.01.2020, 10:35
    #39911485
ZirnayaKuro4ka
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
Dimitry Sibiryakov

Вариант 1: Ты знаешь С++. В этом случае проще выкинуть питон и найти недостающие
библиотеки матана на С++, их достаточно.
Вариант 2: Ты не знаешь С++. В этом случае даже медленная реализация на питоне будет
работать меньше времени, чем ты потратишь на его изучение.


C++ и Python знаю на достаточном для выполения работ уровне. Поэтому вопрос только в использовании массивов NumPy в С++ для реализации своих библиотечных алгоритмов.
...
Рейтинг: 0 / 0
08.01.2020, 10:36
    #39911486
ZirnayaKuro4ka
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
bk0010
Dimitry Sibiryakov

пропущено...

Вариант 1: Ты знаешь С++. В этом случае проще выкинуть питон и найти недостающие
библиотеки матана на С++, их достаточно.
Если у вас вариант 1, то начать рекомендую с Intel Math Kernel Library - работает весьма быстро, если там есть то, что вам надо, то очень повезло.


Вы не представляете во сколько раз в Python больше математики. Целые книги по отдельным пакетам написаны.
...
Рейтинг: 0 / 0
08.01.2020, 13:00
    #39911526
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka, то что вы хотите - это не про BigData.

BitData это определённый стандарт на разработку ПО при котором ваши данные лежат на распределённых
дисках или памяти на разных хостах и процессятся через шаблоны отображения-свёртки.

То что вы говорите - это просто библиотеки математики и статистики. NumPy в этом смысле ничем не лучше
чем std.
...
Рейтинг: 0 / 0
08.01.2020, 13:13
    #39911536
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4kaC++ и Python знаю на достаточном для выполения работ уровне.

Каких работ? Лабораторных?

Просто найти в документации способы вызова Си из Питона и посмотреть соответствие типов
мешает что?
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
08.01.2020, 14:02
    #39911559
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
Согласно вики, NumPy появилась в 1995 году. Первые упомниания о BigData/MapReduce примерно 2010 год.

Тоесть Нам-Пи примерно на 15 лет старше.
...
Рейтинг: 0 / 0
08.01.2020, 14:10
    #39911561
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
BigData как и HighLoad это просто маркетинговые нашлёпки, которыми прикрывают свою задницу
разработчики, система которых переросла их способности.

Поэтому-то data становится "big", когда перестаёт помещаться в ОЗУ, а load - "high" когда
всё начинает тормозить.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
08.01.2020, 14:35
    #39911577
ZirnayaKuro4ka
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
Dimitry Sibiryakov

BigData как и HighLoad это просто маркетинговые нашлёпки, которыми прикрывают свою задницу
разработчики, система которых переросла их способности.

Поэтому-то data становится "big", когда перестаёт помещаться в ОЗУ, а load - "high" когда
всё начинает тормозить.


Вы не правы: BigData- это СПОСОБ обработки информации (возможно даже небольшой по количеству), при котором аналитик не выдвигает каких- либо теорий относительно логической связи в данных, а использует алгоритмы, которые сами их находят. Именно так работают нейронные сети (сами находят взаимосвязи) и случайные леса. Тоже самое можно сказать и про кластеризацию (аналитик заранее не знает результат, а предлагает системе самостоятельно найти совокупности со сходными свойствами.

Да, сюда же подмешали много статистики, но тут ничего не поделаешь: всем нужен результат, а не абстрактная идея "какая BigData правильная".
...
Рейтинг: 0 / 0
08.01.2020, 14:37
    #39911578
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka
Dimitry Sibiryakov

BigData как и HighLoad это просто маркетинговые нашлёпки, которыми прикрывают свою задницу
разработчики, система которых переросла их способности.

Поэтому-то data становится "big", когда перестаёт помещаться в ОЗУ, а load - "high" когда
всё начинает тормозить.


Вы не правы: BigData- это СПОСОБ обработки информации (возможно даже небольшой по количеству), при котором аналитик не выдвигает каких- либо теорий относительно логической связи в данных, а использует алгоритмы, которые сами их находят. Именно так работают нейронные сети (сами находят взаимосвязи) и случайные леса. Тоже самое можно сказать и про кластеризацию (аналитик заранее не знает результат, а предлагает системе самостоятельно найти совокупности со сходными свойствами.

Да, сюда же подмешали много статистики, но тут ничего не поделаешь: всем нужен результат, а не абстрактная идея "какая BigData правильная".

Опять промах. Нейронные сети тоже возникли задолго до BigData.
...
Рейтинг: 0 / 0
08.01.2020, 15:18
    #39911603
ZirnayaKuro4ka
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
mayton

Опять промах. Нейронные сети тоже возникли задолго до BigData.


Какая разница что когда возникло? Сегодня под BigData подразумевают настолько большие данные, что их в ручном режиме нельзя проанализировать, поэтому придуманы механизмы, которые сами устанавливают взаимосвязи в данных.

Кстати, даже статистика используется только для выясления новых "фич", которые потом наравне с остальными переменными используются алгоритмами BigData для выявления закономерностей.
...
Рейтинг: 0 / 0
08.01.2020, 15:22
    #39911606
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka
mayton

Опять промах. Нейронные сети тоже возникли задолго до BigData.


Какая разница что когда возникло? Сегодня под BigData подразумевают настолько большие данные, что их в ручном режиме нельзя проанализировать, поэтому придуманы механизмы, которые сами устанавливают взаимосвязи в данных.

Кстати, даже статистика используется только для выясления новых "фич", которые потом наравне с остальными переменными используются алгоритмами BigData для выявления закономерностей.

Я не об этом. Ты, втащив в топик тему BigData сам себя ограничил. Я знаю много топиков в которых
на фоне buzzword была похоронена основная идея. А автор затащил buzzword просто так. Непонятно к чему.

Вот если тебе хочется покрутить объем данных - покрути их на меньшем объеме. Разработай модель.
Убедись что она хороша. И после этого начинай тихонько выводить ее в т.к. Big* пространство.

Пока ты это не сделал - в топике будет переливаение из пустого в порожнее.
Кроме того разберись с интеграцией Python и С++.
...
Рейтинг: 0 / 0
08.01.2020, 15:44
    #39911621
ZirnayaKuro4ka
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
mayton

Я не об этом. Ты, втащив в топик тему BigData сам себя ограничил. Я знаю много топиков в которых
на фоне buzzword была похоронена основная идея. А автор затащил buzzword просто так. Непонятно к чему.

Вот если тебе хочется покрутить объем данных - покрути их на меньшем объеме. Разработай модель.
Убедись что она хороша. И после этого начинай тихонько выводить ее в т.к. Big* пространство.

Пока ты это не сделал - в топике будет переливаение из пустого в порожнее.
Кроме того разберись с интеграцией Python и С++.


По- моему в топике я все предельно понятно описал, а потому никак себя не ограничил. А вот ты наоборот из- за увиденного слова начинаешь вести себя неадекватно и тыкать в это слово палкой. Кто тут сам себя ограничил?
...
Рейтинг: 0 / 0
08.01.2020, 15:45
    #39911623
PetroNotC Sharp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka
Dimitry Sibiryakov

BigData как и HighLoad это просто маркетинговые нашлёпки, которыми прикрывают свою задницу
разработчики, система которых переросла их способности.

Поэтому-то data становится "big", когда перестаёт помещаться в ОЗУ, а load - "high" когда
всё начинает тормозить.


Вы не правы: BigData- это СПОСОБ обработки информации (возможно даже небольшой по количеству), при котором аналитик не выдвигает каких- либо теорий относительно логической связи в данных, а использует алгоритмы, которые сами их находят. Именно так работают нейронные сети (сами находят взаимосвязи) и случайные леса. Тоже самое можно сказать и про кластеризацию (аналитик заранее не знает результат, а предлагает системе самостоятельно найти совокупности со сходными свойствами.

Да, сюда же подмешали много статистики, но тут ничего не поделаешь: всем нужен результат, а не абстрактная идея "какая BigData правильная".

давай конкретный пример.
Для нейронных сетей конкретный пример - это выявление рака (конкр.объекта) по миллиону предъявляемых рентген снимков (больной\здоровый).
Система сама обучается.
Теперь твой пример...
...
Рейтинг: 0 / 0
08.01.2020, 15:48
    #39911625
PetroNotC Sharp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka
BigData- это СПОСОБ обработки информации (возможно даже небольшой по количеству), при котором аналитик не выдвигает каких- либо теорий относительно логической связи в данных, а использует алгоритмы, которые сами их находят.

какого рода связи находятся сами если на входе набор данных БЕЗ СВЯЗЕЙ?
...
Рейтинг: 0 / 0
08.01.2020, 15:54
    #39911629
ZirnayaKuro4ka
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
PetroNotC Sharp

какого рода связи находятся сами если на входе набор данных БЕЗ СВЯЗЕЙ?


Точно, на входе набор без связей, а на выходе со связями (например, предсказывается значение одной из колонок по совокупности других). Если рассматривать пример с раковыми больными, то на выходе у нас будет зависимость колонки со значением болен / здоров от остальных данных в наборе (причем эта связь может быть неформализуема).
...
Рейтинг: 0 / 0
08.01.2020, 15:59
    #39911634
PetroNotC Sharp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka
например, предсказывается значение одной из колонок по совокупности других)

каких колонок? В сабже разве есть "колонки" как понятие? Покажи))
...
Рейтинг: 0 / 0
08.01.2020, 16:00
    #39911635
PetroNotC Sharp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka
пример с раковыми больными, то на выходе у нас будет зависимость колонки

придумай свой пример. Этот я приводил.
...
Рейтинг: 0 / 0
08.01.2020, 16:11
    #39911645
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4ka

Какая разница что когда возникло? Сегодня под BigData подразумевают настолько большие данные, что их в ручном режиме нельзя проанализировать, поэтому придуманы механизмы, которые сами устанавливают взаимосвязи в данных.

Кстати, даже статистика используется только для выясления новых "фич", которые потом наравне с остальными переменными используются алгоритмами BigData для выявления закономерностей.

Собственно, ещё одно доказательство, что слово BigData все используют как хотят и называют им что хотят. Я видел много разных определений бигдаты и все они в чем то да отличаются, то включая в него, то исключая различные инженерные и не очень области.
...
Рейтинг: 0 / 0
08.01.2020, 16:24
    #39911653
PetroNotC Sharp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
Ржавый гвоздь,
именно.
mayton, выше сказал - баззворд.
...
Рейтинг: 0 / 0
08.01.2020, 16:36
    #39911662
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?
ZirnayaKuro4kaна выходе у нас будет зависимость колонки со значением болен / здоров от остальных данных
в наборе (причем эта связь может быть неформализуема).

Не хочу тебя огорчать, но корреляционный анализ не имеет отношения к BigData тоже.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Форумы / C++ [игнор отключен] [закрыт для гостей] / Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше? / 25 сообщений из 59, страница 1 из 3
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]