|
|
|
Spark чтение csv файла с указанием схемы и нестандартными типами
|
|||
|---|---|---|---|
|
#18+
Всем привет, пытаюсь прочитать csv'шку spark'ом в Dataset, в самой csv'шке лежат даты в некотором виде "dd.MM.yyyy" и double'ы, у которых decimal separator не точка, а запятая. Можно ли как то указать эти особенности формата, при указании схемы csv? В идеале на Java, но если на Scala то тоже пойдет. Или так нельзя и нужно читать как String, потом парсим в отдельную колонку через udf и withColumn и не заморачиваемся? (сейчас напилили именно так, но чет смущает такая реализация) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.04.2018, 19:06 |
|
||
|
Spark чтение csv файла с указанием схемы и нестандартными типами
|
|||
|---|---|---|---|
|
#18+
just_vladimir, https://issues.apache.org/jira/browse/SPARK-18359 Так что работайте с udf и не заморачивайтесь ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.04.2018, 12:46 |
|
||
|
Spark чтение csv файла с указанием схемы и нестандартными типами
|
|||
|---|---|---|---|
|
#18+
забыл ник, спасибо за ссылку на соответствующий improvement issue, плюс если кому будет актуально, то по данной проблеме ситуация такая: 1. Мне ответили на stackoverflow https://stackoverflow.com/questions/49869402/load-csv-in-spark-with-types-in-non-standard-format, там предлагают использовать стандартные функции unix_timestamp для парсинга даты и менять разделитель через замену по регекспу regexp_replace 2. Дополнительно раскопал, что у Spark-Csv есть option для указания формата даты .option("dateFormat", "dd.MM.yyyy"); ( https://github.com/databricks/spark-csv) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.04.2018, 10:18 |
|
||
|
|

start [/forum/topic.php?fid=59&fpage=48&tid=2122108]: |
0ms |
get settings: |
8ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
57ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
42ms |
get tp. blocked users: |
2ms |
| others: | 13ms |
| total: | 154ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...