|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, если не трудно приведи пример своей загрузки. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.05.2016, 20:39 |
|
Hadoop
|
|||
---|---|---|---|
#18+
[quot mishanya3624]первые тесты: таблица 12 гб 67 лямов записей обычный запрос: Код: sql 1. 2. 3.
А можно сделать на mssql openqerry ? и 2 подключения к хейву и импале? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.05.2016, 21:25 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, к импале нет опенсорсного драйвера, только для hive я пытаюсь подцепить hadoop к cognos, там возможен только пока hive драйвер, jdbc odbc пока не получается отдельно настроить. вывести данные через openqwery 1 раз попробовал не получилось, надо правильную строку подключения для линкед сервера написать, пока нужды нет такой, думаю возможно. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.05.2016, 22:52 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Получилось подцепить hadoop к Cognos BI , данные прилетают, но есть косяк небольшой с blob столбцами, для них нужен индекс, а в хадупе они у меня уже как стринг импортированны, можно ли добавить столбец индекса в хадупе? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 10:52 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624haXbat, если не трудно приведи пример своей загрузки. Код: powershell 1. 2.
На переменную ${hdfs_dir} уже нацелена hive таблица (stored as textfile), которая повторяет структуру исходной таблицы из mysql. Следующим шагом идет конвертация из textfile в parquet, раскладывание данных по партициям, парсинг json-колонок и другие преобразования сырых данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 11:31 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, спасибо,надо будет попробовать... Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами. create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true'); то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 15:58 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624haXbat, спасибо,надо будет попробовать... Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами. create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true'); то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним? ACID для hive он же сырой вообще, я вообще не вижу в нем особо смысла пока. Так что те DDL, которые не поддерживает Impala, не использую. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 16:31 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, то есть используете только insert? для работы с impala используете Hue, командной строкой пользуетесь? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 16:35 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624первые тесты: таблица 12 гб 67 лямов записей обычный запрос: Код: sql 1. 2. 3.
MSSQL(сервер не загруженный, тестовый 16 гиг оперы 2 проца) - 3.40 минуты Hadoop(5нодов): Hive: 2.28 мин Impala: 1-2 секунды Итог поиска: 3,5 ляма записейИнтересно проверить на СУБД Caché с задействованием индексов iFind/iKnow. В своё время делал тесты для подобного поиска: 15886647 . ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 16:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624haXbat, то есть используете только insert? для работы с impala используете Hue, командной строкой пользуетесь? Insert overwrite + партицирование. Hue - пользователи/аналитика для кастомных запросов, вся разработка в консоле. В hue баг на баге и багом погоняет. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 16:57 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 18:07 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, в импала с командной строки , как заходите? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 18:08 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624мигель1, у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS. Это офигенно! А Вас не затруднит описать , что же Вы делали почти месяц ) Чтобы в итоге все получилось ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 18:47 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, спасибо! у вас нет случайно impala drivera&^) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.05.2016, 01:44 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, 1. Ставим на сервер MSSQL драйвер Hive 2. Создаем ODBC драйвер для Hadoopmaster сервер 3. Создаем LInkedServer http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true') Все другие будут вылетать в ошибку. Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:) То есть выбор за вами, что важнее. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.05.2016, 17:32 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624мигель1, 1. Ставим на сервер MSSQL драйвер Hive 2. Создаем ODBC драйвер для Hadoopmaster сервер 3. Создаем LInkedServer http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true') Все другие будут вылетать в ошибку. Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:) То есть выбор за вами, что важнее. Я думаю надо еще покапать, странно как то, чтобы или то работало или это... ... |
|||
:
Нравится:
Не нравится:
|
|||
17.05.2016, 17:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, impala наотрез не хочет работать с ACID... Если что накопаешь, пиши. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.05.2016, 17:53 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2016, 16:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
YuriN.Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный. Можно заюзать HPE Vertica Comminity Edition бесплатный. Поддерживает отказоустойчивый с зеркалированием кластер из 3 серверов + возможность загружать и анализировать средствами SQL до 1 тб сырых данных. С Вашими объемами хватит на много лет. Даже если не делать кластер и крутить БД на одном только сервере, все будет летать и по загрузке данных в реалтайм и по анализу всего массива данных. Вполне хороший вариант для телекомов, реалтайм сборов данных и т.д. Инсталляций в РФ уже полно на базе коммунити в проде компаний различных. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.05.2016, 13:41 |
|
Hadoop
|
|||
---|---|---|---|
#18+
270 лямов записей 50 гб таблица Код: sql 1.
hiveimpala14 минут270 сек все с командной строки ... |
|||
:
Нравится:
Не нравится:
|
|||
24.05.2016, 18:12 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кто-нибудь работает с hadoop с помощью Python скриптов? Если да, поделитесь парочкой скриптов для наглядности и простое описание к ним. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 09:58 |
|
|
start [/forum/topic.php?fid=48&msg=39241381&tid=1856735]: |
0ms |
get settings: |
10ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
150ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
60ms |
get tp. blocked users: |
1ms |
others: | 231ms |
total: | 489ms |
0 / 0 |