powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop
25 сообщений из 138, страница 4 из 6
Hadoop
    #39236135
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

если не трудно приведи пример своей загрузки.
...
Рейтинг: 0 / 0
Hadoop
    #39236151
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quot mishanya3624]первые тесты:
таблица 12 гб
67 лямов записей
обычный запрос:
Код: sql
1.
2.
3.
SELECT *
  FROM tbl_databaselog  
  where CreatedOn LIKE '%2013%'



А можно сделать на mssql openqerry ? и 2 подключения к хейву и импале?
...
Рейтинг: 0 / 0
Hadoop
    #39236175
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

к импале нет опенсорсного драйвера, только для hive
я пытаюсь подцепить hadoop к cognos, там возможен только пока hive драйвер, jdbc odbc пока не получается отдельно настроить.
вывести данные через openqwery 1 раз попробовал не получилось, надо правильную строку подключения для линкед сервера написать, пока нужды нет такой, думаю возможно.
...
Рейтинг: 0 / 0
Hadoop
    #39236330
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Получилось подцепить hadoop к Cognos BI , данные прилетают, но есть косяк небольшой с blob столбцами, для них нужен индекс, а в хадупе они у меня уже как стринг импортированны, можно ли добавить столбец индекса в хадупе?
...
Рейтинг: 0 / 0
Hadoop
    #39236366
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,

если не трудно приведи пример своей загрузки.


Код: powershell
1.
2.
#put data from mysql to hdfs
ssh ${hostname} "mysql -s --batch --quick -e 'select * from ${src_db_name}.${src_table_name}' | pigz -f" | hadoop fs -put - ${hdfs_dir}



На переменную ${hdfs_dir} уже нацелена hive таблица (stored as textfile), которая повторяет структуру исходной таблицы из mysql. Следующим шагом идет конвертация из textfile в parquet, раскладывание данных по партициям, парсинг json-колонок и другие преобразования сырых данных.
...
Рейтинг: 0 / 0
Hadoop
    #39236690
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

спасибо,надо будет попробовать...
Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами.
create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true');
то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним?
...
Рейтинг: 0 / 0
Hadoop
    #39236741
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,

спасибо,надо будет попробовать...
Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами.
create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true');
то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним?
ACID для hive он же сырой вообще, я вообще не вижу в нем особо смысла пока. Так что те DDL, которые не поддерживает Impala, не использую.
...
Рейтинг: 0 / 0
Hadoop
    #39236746
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

то есть используете только insert?
для работы с impala используете Hue, командной строкой пользуетесь?
...
Рейтинг: 0 / 0
Hadoop
    #39236769
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624первые тесты:
таблица 12 гб
67 лямов записей
обычный запрос:
Код: sql
1.
2.
3.
SELECT *
  FROM tbl_databaselog  
  where CreatedOn LIKE '%2013%'



MSSQL(сервер не загруженный, тестовый 16 гиг оперы 2 проца) - 3.40 минуты
Hadoop(5нодов):
Hive: 2.28 мин
Impala: 1-2 секунды

Итог поиска: 3,5 ляма записейИнтересно проверить на СУБД Caché с задействованием индексов iFind/iKnow.
В своё время делал тесты для подобного поиска: 15886647 .
...
Рейтинг: 0 / 0
Hadoop
    #39236779
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,

то есть используете только insert?
для работы с impala используете Hue, командной строкой пользуетесь?
Insert overwrite + партицирование.
Hue - пользователи/аналитика для кастомных запросов, вся разработка в консоле. В hue баг на баге и багом погоняет.
...
Рейтинг: 0 / 0
Hadoop
    #39236842
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS.
...
Рейтинг: 0 / 0
Hadoop
    #39236843
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

в импала с командной строки , как заходите?
...
Рейтинг: 0 / 0
Hadoop
    #39236860
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624мигель1,

у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS.

Это офигенно!
А Вас не затруднит описать , что же Вы делали почти месяц )
Чтобы в итоге все получилось
...
Рейтинг: 0 / 0
Hadoop
    #39236960
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,

в импала с командной строки , как заходите?

impala-shell
...
Рейтинг: 0 / 0
Hadoop
    #39237013
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

спасибо!
у вас нет случайно impala drivera&^)
...
Рейтинг: 0 / 0
Hadoop
    #39237016
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

завтра отвечу)
...
Рейтинг: 0 / 0
Hadoop
    #39237653
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

1. Ставим на сервер MSSQL драйвер Hive
2. Создаем ODBC драйвер для Hadoopmaster сервер
3. Создаем LInkedServer
http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server

Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true')
Все другие будут вылетать в ошибку.

Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:)
То есть выбор за вами, что важнее.
...
Рейтинг: 0 / 0
Hadoop
    #39237675
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624мигель1,

1. Ставим на сервер MSSQL драйвер Hive
2. Создаем ODBC драйвер для Hadoopmaster сервер
3. Создаем LInkedServer
http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server

Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true')
Все другие будут вылетать в ошибку.

Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:)
То есть выбор за вами, что важнее.

Я думаю надо еще покапать, странно как то, чтобы или то работало или это...
...
Рейтинг: 0 / 0
Hadoop
    #39237679
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

impala наотрез не хочет работать с ACID...
Если что накопаешь, пиши.
...
Рейтинг: 0 / 0
Hadoop
    #39240294
YuriN.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный.
...
Рейтинг: 0 / 0
Hadoop
    #39241381
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
YuriN.Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный.
Можно заюзать HPE Vertica Comminity Edition бесплатный. Поддерживает отказоустойчивый с зеркалированием кластер из 3 серверов + возможность загружать и анализировать средствами SQL до 1 тб сырых данных. С Вашими объемами хватит на много лет. Даже если не делать кластер и крутить БД на одном только сервере, все будет летать и по загрузке данных в реалтайм и по анализу всего массива данных. Вполне хороший вариант для телекомов, реалтайм сборов данных и т.д. Инсталляций в РФ уже полно на базе коммунити в проде компаний различных.
...
Рейтинг: 0 / 0
Hadoop
    #39242622
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
270 лямов записей 50 гб таблица
Код: sql
1.
select * from mytable where id = 'dsfgdfgd-54hf-fbn'


hiveimpala14 минут270 сек
все с командной строки
...
Рейтинг: 0 / 0
Hadoop
    #39242626
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
забыл, вывод 4 строки.
...
Рейтинг: 0 / 0
Hadoop
    #39243694
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кто-нибудь работает с hadoop с помощью Python скриптов?
Если да, поделитесь парочкой скриптов для наглядности и простое описание к ним.
...
Рейтинг: 0 / 0
Hadoop
    #39243768
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вот еще вопрос:
всего в hive у меня данных на 67 гб
а hdfs кластера загружен на все 265 , это так называемое зеркалирование он делает, для отказоустойчивости?
...
Рейтинг: 0 / 0
25 сообщений из 138, страница 4 из 6
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]