Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
22.05.2019, 18:15
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Прошу прощения что пишу в форум Java. Но в big-data - сверчки сверчат и вообще нет людей. Учебный туториал по Spark. Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
Падает в фазе сохранения отчота. Есть ощущение что толи аргуменов не хватило. Толи chmod не отработал. Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37.
Искал в дефектах https://issues.apache.org/jira/browse/ но там похожие давно закрытые. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
22.05.2019, 18:36
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Да. На рабочей машине под десяткой этого нет. Вот есть какая-то инструкция https://simonsuthers.wordpress.com/2017/02/13/how-to-install-spark-on-a-windows-10-machine/ Но я winutils на эту машину ее не поставлю. Есть действующие полиси. Возможно чуть позже. Попробую через пару часиков под Ubuntu. Думаю взлетит все в шоколаде. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
22.05.2019, 18:45
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
а если запустить в git-bash? там есть окружение почти. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
22.05.2019, 18:53
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
mayton Попробую через пару часиков под Ubuntu. Думаю взлетит все в шоколаде. Это лучший фикс ... |
|||
:
Нравится:
Не нравится:
|
|||
|
22.05.2019, 18:53
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
llemingа если запустить в git-bash? там есть окружение почти. Пробовал. Таже ошибка. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
22.05.2019, 18:58
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
норм у меня под виндой всё работало. а ты пробовал вот это? ... |
|||
:
Нравится:
Не нравится:
|
|||
|
22.05.2019, 18:59
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
2)Set the HADOOP_HOME environment variable to the above downloaded winutils directory.(ex:C:\winutils\hadoop-2.7.1) ... |
|||
:
Нравится:
Не нравится:
|
|||
|
23.05.2019, 10:11
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Хм. Под линуксом результат немного другой. (Файловые пути и сплиттер я поменял.) Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21.
Код: java 1. 2. 3. 4. 5. 6. 7.
Сформировался не 1 отчот а пачка. ХМ... корректно ли это? Не знаю. Складывается ощущение что последний шаг слияния отчота не добежал до конца. В логах ошибки были но они не прерывали процесс расчета. Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 162. 163.
Отчоты. Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32.
... |
|||
:
Нравится:
Не нравится:
|
|||
|
23.05.2019, 11:22
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Это ожидаемое поведение. Внутри спарк разбивает rdd\dataframe на партитишены и работает с ними параллельно, запись не исключение(на что собственно инамекает префикс part-). Сделано это потому что при типичном сценарии - эту папку будет вычитывать другая джоба и то что ваш файл разбит на партитишены позволит ускорить чтение. Забудьте про файлы с понятными именами типа report.txt, если вам гужен именно такой выход - придется делать это ручками, например так - df.repartition(1)//соберет все в один партитишен).writeAsCsv writeAsCsv = { Hadoop Api to rename file } ... |
|||
:
Нравится:
Не нравится:
|
|||
|
23.05.2019, 11:24
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Сорян. Настал рабочий день и я снова под Windows 10. Поробую поднять в докере Hadoop-slave https://hub.docker.com/r/anchorfree/hadoop-slave Поскольку WinUtils - палёный софт буду ставить через внутренние процедуры. Это займет время. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
23.05.2019, 11:26
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
забыл никЗабудьте про файлы с понятными именами типа report.txt, если вам гужен именно такой выход - придется делать это ручками, например так - df.repartition(1)//соберет все в один партитишен).writeAsCsv writeAsCsv = { Hadoop Api to rename file } ОК. Спасибо. Меня не пугают непонятные файлы. Просто хотел услышать от знатока Spark что это ожидаемое поведение. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
23.05.2019, 11:34
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Вообще крайне рекомендую ознакомиться с форматом parquet. У нас например по полиси все промежуточные операции только на нем, разрешается только либо спраовчники ккие вначале вычитывать как другие форматы(те что не подконтрольны нам) либо конечная запись - если какая тула ожидает в формате отличном от паркета. Производительность parquet на уровне ... |
|||
:
Нравится:
Не нравится:
|
|||
|
23.05.2019, 11:47
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Эта линка ? https://parquet.apache.org/ ... |
|||
:
Нравится:
Не нравится:
|
|||
|
30.06.2019, 21:27
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
На проекте решили использовать ORC https://orc.apache.org/ Вернее ... заказчик решил. Интересная штука. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.07.2019, 02:41
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
maytonПопробую через пару часиков под Ubuntu. Думаю взлетит все в шоколаде. +1 Вот зачем парить мозги если есть Юбунту? ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.07.2019, 08:43
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
maytonНа проекте решили использовать ORC https://orc.apache.org/ Вернее ... заказчик решил. Интересная штука. Вы вообще где? А то уж больно продвинутый у вас заказчик ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.07.2019, 10:51
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Для современной разработки это неуместный вопрос. Команда - распределённая. Часть - в USA. Часть в Украине. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.07.2019, 11:45
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
мы orc не пробовали, но из того что я читал, практически одно и тоже что и паркет. если структура обьектов для датафрейма вложенная или древовидная то лучше паркет, если плоская то orc, по производительности вроде почти одно и тоже ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.07.2019, 11:48
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
С точки зрения использования ОРК будет попроще. И авторский сайт очень быстро позволяет "войти" в использование. А паркет у меня за 1 час не взлетел. Неосилил я его принципы. По голому API-же трудно понять юзкейс. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.07.2019, 11:50
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
в смысле попроще? 99% использования - прочитать датафрейм записать датафрейм. о каких принципах речь, удивляешь честно говоря ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.07.2019, 11:58
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Сколько строк тебе понадобиться чтобы на паркете описать например схему в 3 колонки типа строка, число и сумма. И сохранить это всё в файлик. На ОРК-е - штук 20 строк. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.07.2019, 12:09
|
|||
---|---|---|---|
Искра под Виндой |
|||
#18+
Может я конечно чего не понимаю, но вот рабочий код Код: java 1. 2. 3. 4.
... |
|||
:
Нравится:
Не нравится:
|
|||
|
|
start [/forum/topic.php?fid=59&mobile=1&tid=2121223]: |
0ms |
get settings: |
7ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
170ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
57ms |
get tp. blocked users: |
2ms |
others: | 234ms |
total: | 505ms |
0 / 0 |