Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
Glebanskichurupaha, Databricks кооперируется с Информатикой https://www.businesswire.com/news/home/20190521005827/en/Databricks-Informatica-Partner-Accelerate-Development-Intelligent-Data Ну все, рынок энтерпрайза эти двое теперь точно подомнут. ЗЫ: Юзаю Databricks пару недель. Пока впечатления хорошие. Щас пробую Datalake на нем сбацать. Ага, они много с кем уже кооперируются от известных до неизвестных, кажется даже Azure ADF Flow юзает сие (не пробовал). Да они и сами по себе оооочень круты. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.05.2019, 21:49 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupahaH5N1, Databricks Delta UPDATE/DELETE Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169. 170. 171. 172. 173. 174. 175. 176. 177. 178. 179. 180. 181. 182. 183. 184. 185. 186. 187. 188. 189. 190. 191. 192. 193. 194. 195. 196. 197. 198. 199. 200. 201. 202. 203. 204. 205. 206. 207. 208. 209. 210. 211. 212. 213. 214. 215. 216. 217. 218. 219. 220. 221. 222. 223. 224. 225. 226. 227. 228. 229. 230. 231. 232. 233. 234. 235. 236. 237. 238. 239. 240. 241. 242. 243. 244. 245. 246. 247. 248. 249. 250. 251. 252. 253. 254. 255. 256. 257. 258. 259. 260. 261. 262. 263. 264. 265. 266. 267. 268. 269. 270. 271. 272. 273. 274. 275. 276. 277. 278. 279. 280. 281. 282. 283. 284. 285. 286. Обратите внимание еще на статистику MIN/MAX для каждого файла... используется для pruning'a... Ещё инфа https://docs.databricks.com/delta/optimizations.html https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html Delta теперь доступна на Databricks Standard да и на обычном Apache Spark'e. Переименовали в Delta Lake. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.08.2019, 16:12 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
Databricks Connect (Python, Scala, Java) https://docs.databricks.com/dev-tools/databricks-connect.html New Databricks Integration for Jupyter Bridges Local and Remote Workflows https://databricks.com/blog/2019/12/03/jupyterlab-databricks-integration-bridge-local-and-remote-workflows.html ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.01.2020, 18:08 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
Databricks Connect Дает возможность писать всё в привычной IDE, дебажить, нормальный sorce control с ветками, CI/CD etc... Например, написать python-скрипт (много скриптов) миксующий обычный код с джобом Spark, упаковать все зависимости в контейнер, задеплоить/зашедулить куда надо. Также добавили возможность кастомизации image'a самого спарка (гуглится у них в доке). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.01.2020, 18:12 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha, попробовал на delta lake посмотреть и что-то не понял. смотрел локальный вариант, sql похоже вообще обрезан. ни DELETE ни UPDATE не работают. лишь SELECT сработал. попробовал считать датасет, слегка поменять, записать. папка разбухла в двое. как я понял можно дергать .delete() .update() .merge() и работа с датафреймом теперь ими ограничена. т.е. я не могу взять существующий код, подсунуть ему датасет со сториджем delta и рассчитать, что он лишь измененную часть запишет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.01.2020, 18:10 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
H5N1 churupaha, попробовал на delta lake посмотреть и что-то не понял. смотрел локальный вариант, sql похоже вообще обрезан. ни DELETE ни UPDATE не работают. лишь SELECT сработал. попробовал считать датасет, слегка поменять, записать. папка разбухла в двое. как я понял можно дергать .delete() .update() .merge() и работа с датафреймом теперь ими ограничена. т.е. я не могу взять существующий код, подсунуть ему датасет со сториджем delta и рассчитать, что он лишь измененную часть запишет. так рождаются легенды ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.02.2020, 18:35 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
databricks docs (preview)Load data from a file location into a Delta table. This is a re-triable and idempotent operation—files in the source location that have already been loaded are skipped. https://docs.databricks.com/spark/latest/spark-sql/language-manual/copy-into.html ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.02.2020, 11:53 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
+ похоже имплементить инкрементальную загрузку станет еще проще. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.02.2020, 11:55 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha, и еще одна примочка для инкрементальщины... авторAuto Loader incrementally and efficiently processes new data files as they arrive in Amazon S3 without any additional setup. Auto Loader provides a new Structured Streaming source called cloudFiles. Given an input directory path on the cloud file storage, the cloudFiles source automatically sets up file notification services that subscribe to file events from the input directory and processes new files as they arrive, with the option of also processing existing files in that directory. You can use it in the same way as other streaming sources: https://docs.databricks.com/spark/latest/structured-streaming/auto-loader.html ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.02.2020, 12:00 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
В России это не особо акутально - ажуры вот эти все. Российские компании не идут в американские облака. Хранилища делают в больших компаниях, а они или с госучастием или еще по каким-то причинам, но не лезут в американские облака от слова совсем. Даже та же пятерочка, которая зарегестрирована в нидерландах и со всеми бенефициарами в лондоне - не использует американские облака. Так как переход в облака так или иначе неизбежен - это технологический тренд, думаю, всё будет в российских облаках. Облаках яндекса, майл ру, ростелекома. И стек там будет свой. Компании из последних двух, которые попроще, будут просто предоставлять гетерогенную инфраструктуру со всякими понатыканными постгре. А у Яндекса есть свои успешные продукты, как тот же Кликхаус. Ну и вообще у яши любая технология переписана с нуля в яндекс продукт, вместо хадупа у них YT, и так далее, с каждым продуктом. я так вижу ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.02.2020, 18:48 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha databricks docs (preview)Load data from a file location into a Delta table. This is a re-triable and idempotent operation—files in the source location that have already been loaded are skipped. https://docs.databricks.com/spark/latest/spark-sql/language-manual/copy-into.html при строительстве дата лейков отфильтровать уже загруженные файлы мягко говоря не самая сложная задача. ладно. допустим я выкину SQL и все свои наработки за несколько лет, переделаю на .delete() .update() .merge() но встает следующая проблема. cloudera вырезала из своей сборки spark этот дельта лейк, т.е. hive on spark прочесть не сможет результат. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.03.2020, 10:56 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
Бумбараш В России... это не про Россию... немного английского и всё становится актуальным, не ограничивайте себя ;) H5N1при строительстве дата лейков отфильтровать уже загруженные файлы мягко говоря не самая сложная задача. чем меньше рутины тем лучше, фич там масса на самом деле... H5N1ладно. допустим я выкину SQL и все свои наработки за несколько лет, переделаю на .delete() .update() .merge() а не нужно выкидывать: UPDATE, DELETE, INSERT, MERGE есть и в виде SQL H5N1но встает следующая проблема. cloudera вырезала из своей сборки spark этот дельта лейк, т.е. hive on spark прочесть не сможет результат. хз что сказать, я про Azure и AWS, после того, как Databricks ("начинатели" Spark'а) выкатили свую коммерческую поделку в AWS / Azure, ну пофиг на лм clouder'у... тем более, что скорее всего именно миграция с вашей clouder'ы в Databricks пройдет без пинков... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 08:51 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
Бумбараш... с тем стеком, что вы перечислили будет тяжело работу найти вне России... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 08:54 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha а не нужно выкидывать: UPDATE, DELETE, INSERT, MERGE есть и в виде SQL нету, посмотрите доки, только в их облаке. H5N1хз что сказать, я про Azure и AWS, после того, как Databricks ("начинатели" Spark'а) выкатили свую коммерческую поделку в AWS / Azure, ну пофиг на лм clouder'у... тем более, что скорее всего именно миграция с вашей clouder'ы в Databricks пройдет без пинков... а смысл от технологии на файликах в облаке ? в облаке я тогда уж полноценное решение возьму, где не апдейт/делит без акробатики происходит и SQL быстрее чем у spark. по мне такая штука ценна на моем железе, где выбор сториджа ограничен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 10:40 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha Бумбараш... с тем стеком, что вы перечислили будет тяжело работу найти вне России... я там стека то никакого не перечислял. Только сказал, что у Яндекса всё своё ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 12:33 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha Бумбараш В России... это не про Россию... немного английского и всё становится актуальным, не ограничивайте себя ;) с английским у меня всё ок. Но я никуда уезжать не собираюсь. А ковыряться в ажуре с индусами по скайпу - тоже так себе варик. Меня вполне устраивает русский стек за 300к\сек. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 12:35 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
H5N1 где не апдейт/делит без акробатики происходит а где массовый update/delete происходит без "акробатики"? (с таблицей / индексами все нормуль потом в тех движках?) по-моему не плохо в delta реализован update/delete... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 14:12 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha H5N1 где не апдейт/делит без акробатики происходит а где массовый update/delete происходит без "акробатики"? (с таблицей / индексами все нормуль потом в тех движках?) по-моему не плохо в delta реализован update/delete... амазон Redshift, google bigtable, у майкросфта там mpp вариант sql server, они его теперь synapse обызывают. еще есть grennplum. у клоудеры тоже вроде есть kudu, без индексов, но оно сыровато пока. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 14:51 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
H5N1 churupaha пропущено... а где массовый update/delete происходит без "акробатики"? (с таблицей / индексами все нормуль потом в тех движках?) по-моему не плохо в delta реализован update/delete... амазон Redshift, google bigtable, у майкросфта там mpp вариант sql server , они его теперь synapse обызывают. еще есть grennplum. у клоудеры тоже вроде есть kudu, без индексов, но оно сыровато пока. про остальные не скажу, но про Azure DWH скажу Azure DWH docs тынц "For unpartitioned tables, consider using a CTAS to write the data you want to keep in a table rather than using DELETE. If a CTAS takes the same amount of time, it is a much safer operation to run as it has minimal transaction logging and can be canceled quickly if needed." странно что ничего не пишут про columnstore в этой же статье... я честно говоря до сих пор не понимаю, что плохого в реализации delete/update/merge от databricks, в том что оно вам доступно вне databricks только через dataframe api? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 15:06 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
Кстати чтобы лить в Azure DWH через polybase прямо из Databricks есть либа ... Юзал Databricks +Azure DWH до того как его назвали Synaps Analytics... SQL очень кастрирован, будет работать быстро, если правильно заливать в columnstore (память в resource pool для на время заливки для columnstore компрессии должно быть достаточно, там формулы были чтобы оценить, rowgroups чтобы заполнялись нормально и т. п..), также постараться выровнять таблицы (distributions) чтобы при наиболее типичных джоинах не было re-shuffling'а, да как и везде видимо... чудес там нет... из плохого помню geo-backup orphan, при отключении что-то под какотом ажура пошло не так, сторадж не освободился и нас чаржило. через месяц переписки признали ошибку - вернули деньги... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 15:18 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha странно что ничего не пишут про columnstore в этой же статье... хех, пишут и про него в конце... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 15:24 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupaha про остальные не скажу, но про Azure DWH скажу как любой другой рсубд. в оракле тоже ctas часто быстрее. churupaha я честно говоря до сих пор не понимаю, что плохого в реализации delete/update/merge от databricks, в том что оно вам доступно вне databricks только через dataframe api? а как результатом воспользоваться ? аналитики/сатанисты хотят селектить из даталейка, чем теперь ? ну и передать дельту витрин в вертику, получится что единственный вариант - из спарка подключатся и им писать, но это как я понимаю тормозной jdbc. вероятно он сильно проиграет коннектору вертики, что берет паркет файлики с hdfs как и везде видимо... чудес там нет... churupaha чтобы при наиболее типичных джоинах не было re-shuffling'а, да как и везде видимо... чудес там нет... это понятно, но там у них млн клиентов на одного в датабриксе, соответственно и манулов, бест практиз, доков. ну и возможностей все таки поболее. те же индексы есть если что. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 16:00 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
churupahaа как результатом воспользоваться ? не подойдет такое в вашем случае? https://docs.microsoft.com/en-us/azure/databricks/delta/delta-faq Can I access Delta tables outside of Databricks Runtime? There are two cases to consider: external writes and external reads. External writes: Delta Lake maintains additional metadata in the form of a transaction log to enable ACID transactions and snapshot isolation for readers. In order to ensure the transaction log is updated correctly and the proper validations are performed, writes must go through Databricks Runtime. External reads: Delta tables store data encoded in an open format (Parquet), allowing other tools that understand this format to read the data. However, since other tools do not support Delta Lake’s transaction log, it is likely that they will incorrectly read stale deleted data, uncommitted data, or the partial results of failed transactions. In cases where the data is static (that is, there are no active jobs writing to the table), you can use VACUUM with a retention of ZERO HOURS to clean up any stale Parquet files that are not currently part of the table. This operation puts the Parquet files present in DBFS into a consistent state such that they can now be read by external tools. However, Delta Lake relies on stale snapshots for the following functionality, which will break when using VACUUM with zero retention allowance: Snapshot isolation for readers - Long running jobs will continue to read a consistent snapshot from the moment the jobs started, even if the table is modified concurrently. Running VACUUM with a retention less than length of these jobs can cause them to fail with a FileNotFoundException. Streaming from Delta tables - Streams read from the original files written into a table in order to ensure exactly once processing. When combined with OPTIMIZE, VACUUM with zero retention can remove these files before the stream has time to processes them, causing it to fail. For these reasons we recommend the above technique only on static data sets that must be read by external tools. Без костыля вверху: - Databricks морда для запросов - Худо бедно Power BI умеет коннектиться к Databricks (может быть и к Спарк) - Для сатанистов вот тут есть (один из наших прозрел недавно) https://docs.databricks.com/applications/mlflow/index.html а так тащят с блоб стораджа трансформированное/агрегированное в виде csv/jsonline... churupahaну и передать дельту витрин в вертику, получится что единственный вариант - из спарка подключатся и им писать, но это как я понимаю тормозной jdbc. вероятно он сильно проиграет коннектору вертики, что берет паркет файлики с hdfs А погуглите Databricks + Vertica parallel load есть чего? я не работал с Vertica. По крайней мере в Azure DWH через либу что кидал можно из Spark'а лить через polybase (через подчиненные ноды параллельно). Там jdbc коннект к головной ноде используется "драйвером" только для DDL создать EXTERNAL SOURCES и т. п.. и для оркестровки процесса. Данные экспортятся на промежуточный blob storage, а с него нодами-воркерами Azure DWH тянутся в Azure DWH... там не тупо заливка через голову... причем с вашей стороны это обычный spark.write....save() ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 16:33 |
|
||
|
Data Lake как Staging Area
|
|||
|---|---|---|---|
|
#18+
+ есть еще такие костыли... https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html https://docs.databricks.com/spark/latest/spark-sql/dataskipping-index.html#create-index ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2020, 16:38 |
|
||
|
|

start [/forum/search_topic.php?author=EMikhail&author_mode=last_posts&do_search=1]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
get settings: |
11ms |
get forum list: |
12ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
70ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
60ms |
get tp. blocked users: |
1ms |
| others: | 868ms |
| total: | 1087ms |

| 0 / 0 |
