powered by simpleCommunicator - 2.0.54     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData
25 сообщений из 149, страница 5 из 6
Как двигаться в сторону BigData
    #39057052
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan DurakApexТ.е. ты залил на виртуалку с хортоном 15 гигов и он подавился?
как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой"

А что не так? я хотел его протестировать на большом объеме.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39057878
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkIvan Durakпропущено...

как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой"

А что не так? я хотел его протестировать на большом объеме.
Действительно, что может быть не так с нагрузочным тестированием на виртуальной машине...
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058037
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Пару слов про Big Data.
Пож этими словами подразумавают:
1. Маркетинговое понятие. Когда очень МНОГО данных (счет идет на петабайты или сотни терабайтов), как правило НЕСТРУКТУРИРОВАННЫХ, и с ними нужно что-то делать.
2. Железка от Оракл которая называется BigData.


Решить проблему Big Data как правило пытаются через много дешевого железа + Hadoop (файловая система) + разнообразные примочки для упрощения обработки данных.

Тема в тренде, много всего меняется и развивается.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058193
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODA, раскройте шире, что такое "проблема Big Data" :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058243
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
skyANA,

Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data.

Если по сути, то некоторым уже нужно что-то делать с этим:
"за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter".

Первый подход - спускать все на /dev/null.
Второй подход - пытаться как-то анализировать весь этот хаос.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058257
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODAskyANA,

Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data.

Если по сути, то некоторым уже нужно что-то делать с этим:
"за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter".

Первый подход - спускать все на /dev/null.
Второй подход - пытаться как-то анализировать весь этот хаос.

Вот у нас такая проблема началась. Стали использовать вертику.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058306
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
a_voronin,

Если информация не секретна, опишите в двух словах о преимуществах данного решения.

Вертика лицензируется потерабайтно. Сколько терабайт данных в вашем проекте уже есть и сколько прогнозируется?
Какие преимущества RDBMS вы использовали для обработки неструктурированых данных?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058422
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODA, дак Вы суть проблемы описать можете, или нет? Всё вокруг да около ходите :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058459
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
skyANA,

Описал тремя постами выше.
Чем обработать большие объемы неструктурированных данных дешево?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058536
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODAКакие преимущества RDBMS вы использовали для обработки неструктурированых данных?
дайте угадаю - структурируют и обрабатывают!!!!
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058549
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ivan Durak,

Т.е. возят картошку на мерседесе?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058634
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODAskyANA,

Описал тремя постами выше.
Чем обработать большие объемы неструктурированных данных дешево?А зачем их вообще обрабатывать? Откуда они вдруг берутся большие? :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058717
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voroninGASTROPODAskyANA,

Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data.

Если по сути, то некоторым уже нужно что-то делать с этим:
"за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter".

Первый подход - спускать все на /dev/null.
Второй подход - пытаться как-то анализировать весь этот хаос.

Вот у нас такая проблема началась. Стали использовать вертику.

А я еще под вертику положу хадуп )

Это вообще моя мечта
хадуп+вертика+ssas+эксель
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058753
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллka_voroninпропущено...


Вот у нас такая проблема началась. Стали использовать вертику.

А я еще под вертику положу хадуп )

Это вообще моя мечта
хадуп+вертика+ssas+эксель

Я пытаюсь сейчас сделать "вертика+ssas+эксель"
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39059059
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллka_voroninпропущено...


Вот у нас такая проблема началась. Стали использовать вертику.

А я еще под вертику положу хадуп )

Это вообще моя мечта
хадуп+вертика+ssas+эксель
ну замени вертику на гринплам - и твоя шутка перестанет быть шуткой.
http://pivotal.io/big-data/pivotal-hawq
авторWorld’s Most Advanced Enterprise SQL on Hadoop Analytic Engine
Leverage advanced analytics for your data in Apache Hadoop using a massively-parallel processing SQL engine
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39059139
GVF112GVF
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ivan Durak,

FYI ...

Pivotal HD – HAWQ is based on Greenplum Database.

- HAWQ SQL access to Hadoop data (including HBase) is done via the Greenplum Database External Table feature
Part of what is now called PXF – Pivotal Extension Framework.

- HAWQ uses its own internal proprietary metadata
Does not use Apache Hadoop Hive Metadata Catalog (HCatalog)

PS: BigInsights with BigSQL - http://www.ibm.com/developerworks/library/bd-bigsql/

Kind regards,
Vadim.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39061376
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voroninкириллkпропущено...


А я еще под вертику положу хадуп )

Это вообще моя мечта
хадуп+вертика+ssas+эксель

Я пытаюсь сейчас сделать "вертика+ssas+эксель"

А как решили проблему разных операционных систем?

ssas винда
вертика линух
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39061397
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллka_voroninпропущено...


Я пытаюсь сейчас сделать "вертика+ssas+эксель"

А как решили проблему разных операционных систем?

ssas винда
вертика линух

а что такое "проблема разных операционных систем"? И зачем её решать?

Поставили на винду последний драйвер вертики и законнектились.

Provider=VerticaOLEDB.1;Data Source=...;Persist Security Info=True;Password=**********;User ID=olap_user;Locale Identifier=1033;Initial Catalog=olap;Port=5433
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39119512
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Cloudera предложила установить следующие компоненты:

Impala - which you will use for interactive query
Apache Hive - which you will use for structure storage (i.e. tables in the Hive metastore)
Hue - which you will use for end user query access
HDFS - which you will use for distributed data storage
YARN - processing framework used by Hive (includes MR2)

HDFS - понятно, чтобы все хранить

а чем отличаются:

Impala - which you will use for interactive query
Apache Hive - which you will use for structure storage (i.e. tables in the Hive metastore)
Hue - which you will use for end user query access

Как я понимаю запросы к hdfs надо писать на Apache Hive
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39119557
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Чем отличаются если коротко:

Impala - собственная коммерческая разработка Cloudera, in-memory SQL-engine on Hadoop, вроде самая быстрая, погуглите на тему SQL-engine on Hadoop, найдете сравнения. Аналоги от других вендоров: Spark-SQL, Drill, Apache что-то там (пока в инкубаторе). Использовать в качестве драйвера для BI систем с минимальной задержкой.

Apache Hive - это НЕ in-memory (на основе batch заданий MapReduce over HDFS, т.е. файловые операции ввода-вывода) SQL (HiveQL) engine on Hadoop. Для BI не подходит, т.к. высока задержка, но может лопатить петабайты, в основном для примитивного ETL или наполнения DHW из неструктурированных данных из Hadoop. Существуют оптимизации по скорости: Hive on Tez, Hive on Spark, но все равно до in-memory по скорости далеко, хотя кому-то хватит.

Hue - примитивный WEB-интерфейс для написания запросов к Impala и Hive.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39120016
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикЧем отличаются если коротко:

Impala - собственная коммерческая разработка Cloudera, in-memory SQL-engine on Hadoop, вроде самая быстрая, погуглите на тему SQL-engine on Hadoop, найдете сравнения. Аналоги от других вендоров: Spark-SQL, Drill, Apache что-то там (пока в инкубаторе). Использовать в качестве драйвера для BI систем с минимальной задержкой.


Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99).
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39120221
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99).
А что тогда быстрее и технологичнее импалы?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39120982
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

IBM big sql
Pivotal hawq

Написаны на c++. Айбиэмовский движок умеет подтягивать данные из сторонних субд и join'ить их с данными в hadoop. В big sql поддержка sql 2011, hawq sql 2008, если не ошибаюсь.

Ни импала ни эти движки не являются in-memory, не путайте.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39121968
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984haXbat,

IBM big sql
Pivotal hawq

Написаны на c++. Айбиэмовский движок умеет подтягивать данные из сторонних субд и join'ить их с данными в hadoop. В big sql поддержка sql 2011, hawq sql 2008, если не ошибаюсь.

Ни импала ни эти движки не являются in-memory, не путайте.
а спарк?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39122803
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbatloki1984Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99).
А что тогда быстрее и технологичнее импалы?
Teradata.
...
Рейтинг: 0 / 0
25 сообщений из 149, страница 5 из 6
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]