Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
11.12.2019, 09:50
|
|||
---|---|---|---|
|
|||
Подключение csv. Децимальный разделитель и ограничение строк "" |
|||
#18+
Ковыряю Hadoop Cloudera, уперся в 2 проблемки. 1. Исходный csv, содержит цифра с разделителем запятая, не пойму что передать в create tables ... TBLPROPERTIES( ??? чтобы нормально воспринимал. 2. В файле csv есть поля где строк ограничены двойными "", не все, но есть. TBLPROPERTIES( прописал 'quoteChar'='"' не помогает, в значения полей тащатся "....." ... |
|||
:
Нравится:
Не нравится:
|
|||
|
11.12.2019, 12:54
|
|||
---|---|---|---|
Подключение csv. Децимальный разделитель и ограничение строк "" |
|||
#18+
1. CREATE EXTERNAL TABLE tab1(col1 STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY';' stored as textfile LOCATION '/user/..'; 2. там тогда сериализатор надо задавать https://stackoverflow.com/questions/14061466/how-to-handle-fields-enclosed-within-quotescsv-in-importing-data-from-s3-into ... |
|||
:
Нравится:
Не нравится:
|
|||
|
11.12.2019, 14:10
|
|||
---|---|---|---|
|
|||
Подключение csv. Децимальный разделитель и ограничение строк "" |
|||
#18+
H5N1, Не понимаю, как разделитель полей FORMAT DELIMITED FIELDS TERMINATED BY';' Повлияет на децимальный сепаратор. Давайте примером, текст csv ARTICLE;NAME;SUMM 4345235;"Наименование 1";4343,45 22dfdf343;"Наименование 2";76765 22крк23;"Наименование 3";76732,32 Create external table my.table_csv ( ARTICLE STRING, NAME STRING, SUMM DECIMAL(38,2) ) ROW FORMAT DELIMITED FIELDS TERMINATED BY';' WITH SERDEPROPERTIES ('quoteChar'='"') STORED AS TEXTFILE LOCATION 'hdfs://..... TBLPROPERTIES ('COLUMN_STATS_ACCURATE'='false', 'numFiles'='0', 'numRows'='-1', 'rawDataSize'='-1', 'skip.header.line.count'='1','totalSize'='0'); Вместо чисел 1 и 3 строки будет NULL. Наименования в столбце 2 содержат лишние кавычки. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
11.12.2019, 15:34
|
|||
---|---|---|---|
Подключение csv. Децимальный разделитель и ограничение строк "" |
|||
#18+
SpellBuilder Вместо чисел 1 и 3 строки будет NULL. да, потому что в файле строка с запятой, а не децимал. можно ли задать децимал разделитель не знаю SpellBuilder Наименования в столбце 2 содержат лишние кавычки. да, потому что сериализатор не задан. я же дал ссылочку, там видимо что-то типа ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' надо подсовывать. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
11.12.2019, 15:52
|
|||
---|---|---|---|
Подключение csv. Децимальный разделитель и ограничение строк "" |
|||
#18+
у меня вот так сработало, и последнюю колонку хайв всю почему то отобразил Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.
... |
|||
:
Нравится:
Не нравится:
|
|||
|
20.12.2019, 10:47
|
|||
---|---|---|---|
|
|||
Подключение csv. Децимальный разделитель и ограничение строк "" |
|||
#18+
Помучался так "красоты" и не добился, потом коллеги помогли дали пример на python (pandas), я на его базе допилил конвертацию своего csv в parquet, заодно с сжатием. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
|
start [/forum/topic.php?fid=48&mobile=1&tid=1856575]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
42ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
42ms |
get tp. blocked users: |
1ms |
others: | 14ms |
total: | 140ms |
0 / 0 |