Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше? / C++

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / C++ [игнор отключен] [закрыт для гостей] / Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

25 сообщений из 59, страница 1 из 3

все

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911388

ZirnayaKuro4ka

Гость

Есть большой объем данных, которые хочется "покрутить" на предмет наличия тех или иных закономерностей. Поэтому разумеется нужны стандартные механизмы BigData, ради которых использую Python.

Но все осложняется тем, что есть и сложные зависимости, под которые нет нужных Python библиотек (например, статистика неточных совпадений в последовательности данных), поэтому кое- что придется реализовывать самостоятельно.

Но и тут не все так просто: данных очень много, поэтому если реализовывать недостающие алгоритмы на Python придется очень долго ждать выполения. Так в проекте появляется великий и могучий С++: хочется из Python вызывать код, написанный на С++, который умеет работать с массивами NumPy, которые в свою очередь отлично пережевываются встроенными механизмами BigData. Можно сказать, что я хочу, чтобы массивы NumPy были способом передачи данных между Python и C++ (как в одну сторону, так и обратно).

Например, в Python создается массив NumPy, который заполняется в С++ и передается обратно в Python. Там выполняется начальная обработка данных с помощью станадартных алгоритмов для BigData, после которой этот массив опять передается в С++ для более тонкого анализа данных. Сам способ передачи данных в обе стороны у меня реализован (с помощью Cython), непонятно только как в С++ работать с массивами NumPy.

1. Не видите ли вы каких- то ошибок в моей идее?
2. Если все ок, то как научить С++ работать с массивами NumPy?

...

Рейтинг:

0 / 0

07.01.2020, 17:01

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911396

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

ZirnayaKuro4ka1. Не видите ли вы каких- то ошибок в моей идее?

Вариант 1: Ты знаешь С++. В этом случае проще выкинуть питон и найти недостающие
библиотеки матана на С++, их достаточно.
Вариант 2: Ты не знаешь С++. В этом случае даже медленная реализация на питоне будет
работать меньше времени, чем ты потратишь на его изучение.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

07.01.2020, 17:17

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911425

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Может бигдату в SQL сервер какой залить? Дальше средствами SQL, а не самодельными велосипедами

...

Рейтинг:

0 / 0

07.01.2020, 19:44

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911450

OoCc

Участник

Откуда: с Кавказа

Сообщения: 2 210

Рейтинг: 0 / 0

ZirnayaKuro4ka

Как биг есть биг? Я бы использовал Amazon Redshift. И Питон там есть и Сиквэл и распараллеливание зависящее только от глубины кармана.

...

Рейтинг:

0 / 0

07.01.2020, 22:06

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911454

bk0010

Участник

Сообщения: 4 619

Рейтинг: 0 / 0

Dimitry Sibiryakov

ZirnayaKuro4ka1. Не видите ли вы каких- то ошибок в моей идее?

Вариант 1: Ты знаешь С++. В этом случае проще выкинуть питон и найти недостающие
библиотеки матана на С++, их достаточно.
Если у вас вариант 1, то начать рекомендую с Intel Math Kernel Library - работает весьма быстро, если там есть то, что вам надо, то очень повезло.

...

Рейтинг:

0 / 0

07.01.2020, 23:07

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911463

White Owl

Участник

Сообщения: 12 726

Рейтинг: 0 / 0

bk0010

Если у вас вариант 1, то начать рекомендую с Intel Math Kernel Library - работает весьма быстро, если там есть то, что вам надо, то очень повезло.

Не, у него как раз не тот вариант. А NumPy который уже используется TC это питоний враппер над Intel MKL.

...

Рейтинг:

0 / 0

08.01.2020, 06:14

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911485

ZirnayaKuro4ka

Гость

Dimitry Sibiryakov

Вариант 1: Ты знаешь С++. В этом случае проще выкинуть питон и найти недостающие
библиотеки матана на С++, их достаточно.
Вариант 2: Ты не знаешь С++. В этом случае даже медленная реализация на питоне будет
работать меньше времени, чем ты потратишь на его изучение.

C++ и Python знаю на достаточном для выполения работ уровне. Поэтому вопрос только в использовании массивов NumPy в С++ для реализации своих библиотечных алгоритмов.

...

Рейтинг:

0 / 0

08.01.2020, 10:35

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911486

ZirnayaKuro4ka

Гость

bk0010

Dimitry Sibiryakov

пропущено...

Вариант 1: Ты знаешь С++. В этом случае проще выкинуть питон и найти недостающие
библиотеки матана на С++, их достаточно.

Вы не представляете во сколько раз в Python больше математики. Целые книги по отдельным пакетам написаны.

...

Рейтинг:

0 / 0

08.01.2020, 10:36

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911526

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

ZirnayaKuro4ka, то что вы хотите - это не про BigData.

BitData это определённый стандарт на разработку ПО при котором ваши данные лежат на распределённых
дисках или памяти на разных хостах и процессятся через шаблоны отображения-свёртки.

То что вы говорите - это просто библиотеки математики и статистики. NumPy в этом смысле ничем не лучше
чем std.

...

Рейтинг:

0 / 0

08.01.2020, 13:00

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911536

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

ZirnayaKuro4kaC++ и Python знаю на достаточном для выполения работ уровне.

Каких работ? Лабораторных?

Просто найти в документации способы вызова Си из Питона и посмотреть соответствие типов
мешает что?
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

08.01.2020, 13:13

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911559

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Согласно вики, NumPy появилась в 1995 году. Первые упомниания о BigData/MapReduce примерно 2010 год.

Тоесть Нам-Пи примерно на 15 лет старше.

...

Рейтинг:

0 / 0

08.01.2020, 14:02

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911561

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

BigData как и HighLoad это просто маркетинговые нашлёпки, которыми прикрывают свою задницу
разработчики, система которых переросла их способности.

Поэтому-то data становится "big", когда перестаёт помещаться в ОЗУ, а load - "high" когда
всё начинает тормозить.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

08.01.2020, 14:10

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911577

ZirnayaKuro4ka

Гость

Dimitry Sibiryakov

Вы не правы: BigData- это СПОСОБ обработки информации (возможно даже небольшой по количеству), при котором аналитик не выдвигает каких- либо теорий относительно логической связи в данных, а использует алгоритмы, которые сами их находят. Именно так работают нейронные сети (сами находят взаимосвязи) и случайные леса. Тоже самое можно сказать и про кластеризацию (аналитик заранее не знает результат, а предлагает системе самостоятельно найти совокупности со сходными свойствами.

Да, сюда же подмешали много статистики, но тут ничего не поделаешь: всем нужен результат, а не абстрактная идея "какая BigData правильная".

...

Рейтинг:

0 / 0

08.01.2020, 14:35

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911578

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

ZirnayaKuro4ka

Dimitry Sibiryakov

Опять промах. Нейронные сети тоже возникли задолго до BigData.

...

Рейтинг:

0 / 0

08.01.2020, 14:37

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911603

ZirnayaKuro4ka

Гость

mayton

Опять промах. Нейронные сети тоже возникли задолго до BigData.

Какая разница что когда возникло? Сегодня под BigData подразумевают настолько большие данные, что их в ручном режиме нельзя проанализировать, поэтому придуманы механизмы, которые сами устанавливают взаимосвязи в данных.

Кстати, даже статистика используется только для выясления новых "фич", которые потом наравне с остальными переменными используются алгоритмами BigData для выявления закономерностей.

...

Рейтинг:

0 / 0

08.01.2020, 15:18

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911606

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

ZirnayaKuro4ka

mayton

Опять промах. Нейронные сети тоже возникли задолго до BigData.

Я не об этом. Ты, втащив в топик тему BigData сам себя ограничил. Я знаю много топиков в которых
на фоне buzzword была похоронена основная идея. А автор затащил buzzword просто так. Непонятно к чему.

Вот если тебе хочется покрутить объем данных - покрути их на меньшем объеме. Разработай модель.
Убедись что она хороша. И после этого начинай тихонько выводить ее в т.к. Big* пространство.

Пока ты это не сделал - в топике будет переливаение из пустого в порожнее.
Кроме того разберись с интеграцией Python и С++.

...

Рейтинг:

0 / 0

08.01.2020, 15:22

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911621

ZirnayaKuro4ka

Гость

mayton

По- моему в топике я все предельно понятно описал, а потому никак себя не ограничил. А вот ты наоборот из- за увиденного слова начинаешь вести себя неадекватно и тыкать в это слово палкой. Кто тут сам себя ограничил?

...

Рейтинг:

0 / 0

08.01.2020, 15:44

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911623

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

ZirnayaKuro4ka

Dimitry Sibiryakov

давай конкретный пример.
Для нейронных сетей конкретный пример - это выявление рака (конкр.объекта) по миллиону предъявляемых рентген снимков (больной\здоровый).
Система сама обучается.
Теперь твой пример...

...

Рейтинг:

0 / 0

08.01.2020, 15:45

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911625

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

ZirnayaKuro4ka

BigData- это СПОСОБ обработки информации (возможно даже небольшой по количеству), при котором аналитик не выдвигает каких- либо теорий относительно логической связи в данных, а использует алгоритмы, которые сами их находят.

какого рода связи находятся сами если на входе набор данных БЕЗ СВЯЗЕЙ?

...

Рейтинг:

0 / 0

08.01.2020, 15:48

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911629

ZirnayaKuro4ka

Гость

PetroNotC Sharp

какого рода связи находятся сами если на входе набор данных БЕЗ СВЯЗЕЙ?

Точно, на входе набор без связей, а на выходе со связями (например, предсказывается значение одной из колонок по совокупности других). Если рассматривать пример с раковыми больными, то на выходе у нас будет зависимость колонки со значением болен / здоров от остальных данных в наборе (причем эта связь может быть неформализуема).

...

Рейтинг:

0 / 0

08.01.2020, 15:54

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911634

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

ZirnayaKuro4ka

например, предсказывается значение одной из колонок по совокупности других)

каких колонок? В сабже разве есть "колонки" как понятие? Покажи))

...

Рейтинг:

0 / 0

08.01.2020, 15:59

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911635

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

ZirnayaKuro4ka

пример с раковыми больными, то на выходе у нас будет зависимость колонки

придумай свой пример. Этот я приводил.

...

Рейтинг:

0 / 0

08.01.2020, 16:00

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911645

Ржавый гвоздь

Гость

ZirnayaKuro4ka

Собственно, ещё одно доказательство, что слово BigData все используют как хотят и называют им что хотят. Я видел много разных определений бигдаты и все они в чем то да отличаются, то включая в него, то исключая различные инженерные и не очень области.

...

Рейтинг:

0 / 0

08.01.2020, 16:11

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911653

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

Ржавый гвоздь,
именно.
mayton, выше сказал - баззворд.

...

Рейтинг:

0 / 0

08.01.2020, 16:24

| Ответить | Цитировать | Написать

Пишу программу, в которой будет как BigData, так и свои алгоритмы. Как лучше?

#39911662

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

ZirnayaKuro4kaна выходе у нас будет зависимость колонки со значением болен / здоров от остальных данных
в наборе (причем эта связь может быть неформализуема).

Не хочу тебя огорчать, но корреляционный анализ не имеет отношения к BigData тоже.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

08.01.2020, 16:36

| Ответить | Цитировать | Написать

25 сообщений из 59, страница 1 из 3

все

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=57&msg=39911536&tid=2017482]:	0ms
get settings:	7ms
get forum list:	15ms
check forum access:	3ms
check topic access:	3ms
track hit:	158ms
get topic data:	14ms
get forum data:	3ms
get page messages:	76ms
get tp. blocked users:	2ms
others:	197ms

total:	478ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы