|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Библиотека MLib расколота на 2 направления. Первое - на суппорте mlib, И второе в активной разработке - ml. https://spark.apache.org/docs/latest/ml-guide.html org.apache.spark.mlib (obsolete) RDD-based machine learning APIs (in maintenance mode). The spark.mllib package is in maintenance mode as of the Spark 2.0.0 release to encourage migration to the DataFrame-based APIs under the org.apache.spark.ml package. While in maintenance mode, * no new features in the RDD-based spark.mllib package will be accepted, unless they block implementing new features in the DataFrame-based spark.ml package * bug fixes in the RDD-based APIs will still be accepted The developers will continue adding more features to the DataFrame-based APIs in the 2.x series to reach feature parity with the RDD-based APIs. And once we reach feature parity, this package will be deprecated. автор org.apache.spark.ml DataFrame-based machine learning APIs to let users quickly assemble and configure practical machine learning pipelines. Проблема в том что большинство учебных примеров адресованы именно к старому варианту. В старом варианте работа идет с RDD-шками. Это такой себе "нетипизированный" вариант выборки больших данных. Как аналог - строчка JSON. В новом варианте (более вкусном) DataFrame/DataSet (оба похожи )мы имеем хотя-бы декларацию колоночек и типов (DataSet) ... |
|||
:
Нравится:
Не нравится:
|
|||
27.12.2021, 21:38 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
mayton, Я давно читал, что вроде бы RDD Depricated И нужно переходить на DataFrame/DataSet... ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2021, 14:46 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Я нарисовал такую табличку для себя. Я не автор. Стащил с чьей-то презентации. Просто без этого обзора иногда трудно понять какой API вообще надо использовать. RDDDataFrameDatasetCommentsWhatCollectionNamed columnsExtension of DataFrameWhen1.01.31.6Compiletime type safetyNoNoYesAPINoYesYesMeans: agg,select,sumSparkSQLNoYesYesCatalyst optimizerNoYesYesTungsten componentNoYesYesAdvanced encodersNoNoYes ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2021, 14:52 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Интересно определен DataFrame. Это просто генерик датасета шаблонизированный строкой Row. Код: java 1.
Интересно в старых версиях (до ДатаСета) датафрейм наверное как-то определялся по другому. Но этот алиас в целях совметсимости должен был обеспечивать безшовный переход от одного определения типа к другому на базе алиаса. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2021, 22:02 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
С библиотекой ML - непонятно. Она не работает с датафреймами. Ей нужен некий ассемблер. Это трансформер который преобразует исходный датафрейм в другой где интересующие факторы и отклики или input/output cols сгруппированы в мини-векторы в каждой ячейке. Зачем - непонятно. Как по мне - лишнее телодвижение в памяти. Возможно имеет место экономия для сериализации. Вообще многие алгоритмы типа DecisionTree, Random Forest не умеют работать строковым перечислением (enum). Вы должны вручную его отобразить на набор вещественных величин { 1.0, 2.0 ...}. И самое забавное что отчот о decision-tree выдается в таком-же уродском формате где факторы перечислены в виде алиасов типа col1, col2 и резолюция в виде числа. Дальше - рутина по переводу обратно. Впрочем она частично автоматизирована через такие-же stages ML но они есть. Эксперименты я гонял на Ирисах Фишера. Это самый неподходящий сет для Tree но мне было пофиг. Главное - попробовать. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.12.2021, 23:25 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Словил такой баг. Вот так работает. Код: java 1. 2. 3. 4. 5. 6.
Если сделать repartition то получаю в логах Код: java 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
24.02.2022, 22:19 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
mayton, такое обычно падает, когда спарк хочет одну версию скалы, а ему подсовывают другую - надо смотреть, какие версии зависмостей используются ... |
|||
:
Нравится:
Не нравится:
|
|||
24.02.2022, 23:33 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
build.sbt Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
и отдельный шелл скриптик которым я запускаю локально Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17.
Запускается под Windows11 в окружении WSL/Ubuntu. Версию Scala ставил одну без вариантов. Код: java 1. 2.
Spark - 3.2.1. со встроенным Hadoop-ом. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.02.2022, 00:04 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
mayton Spark - 3.2.1. со встроенным Hadoop-ом. В самом дистрибутиве спарка лежит версия для 2.12 или 2.13? В клаудеровских дистрибутивах могут быть установлены несколько версий спарка одновременно - для уверенности в web-ui можно глянуть, какая версия используется. Да и 3.2.1 новая версия - может и вправду что-то не так сделали ... |
|||
:
Нравится:
Не нравится:
|
|||
25.02.2022, 00:43 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Вопрос - что не так? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.02.2022, 00:53 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
spark-submit подтягивает свои джарки скалы и спарка, а не только те, которые указаны в --jars. Вот версии в этих джарках и надо сравнить с версиями при компиляции. Это первый кандитат на причину для NoSuchMethodError ... |
|||
:
Нравится:
Не нравится:
|
|||
25.02.2022, 01:21 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Если убрать scala-library.jar то другая ошибка сразу на старте. Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31.
... |
|||
:
Нравится:
Не нравится:
|
|||
25.02.2022, 10:42 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Ключевой вопрос: какие джарки лежат в $SPARK_HOME/jars? И какая версия scala отбражается в WEB-UI? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.02.2022, 11:03 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Мда. Действительно я пытался собирать в одном компилляторе а Spark подсовывал другой runtime. Код: java 1. 2. 3. 4. 5. 6. 7. 8.
Вобщем пока fixed. Спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.02.2022, 11:40 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
mayton,переходи на джаву) спарк мертв ... |
|||
:
Нравится:
Не нравится:
|
|||
27.02.2022, 20:01 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
Спарк разрабатывается на Scala. Какой смысл мне переходить в разработке на Java/Python? Я хочу читать стектрейсы ошибок и понимать суть того что происходит. Как ты планируешь понимать суть ошибки языка который ты не знаешь? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.02.2022, 20:15 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
mayton Спарк разрабатывается на Scala. Какой смысл мне переходить в разработке на Java/Python? Я хочу читать стектрейсы ошибок и понимать суть того что происходит. Как ты планируешь понимать суть ошибки языка который ты не знаешь? а логи в отменили разве? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.02.2022, 21:39 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
mayton Спарк разрабатывается на Scala. не факт. скорее на c++ databricks разрабатывает, а потом уже портирует какую-то часть в опенсорс. в их облаке енжин и оптимизатор catalyst на c++ как я слышал. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.02.2022, 22:08 |
|
Spark :: ворчалка
|
|||
---|---|---|---|
#18+
adminDontSleep mayton Спарк разрабатывается на Scala. Какой смысл мне переходить в разработке на Java/Python? Я хочу читать стектрейсы ошибок и понимать суть того что происходит. Как ты планируешь понимать суть ошибки языка который ты не знаешь? а логи в отменили разве? Твой вопрос - как из Кащенко. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.02.2022, 23:21 |
|
|
Start [/forum/topic.php?fid=59&tid=2120232]: |
0ms |
get settings: |
4ms |
get forum list: |
7ms |
check forum access: |
1ms |
check topic access: |
1ms |
track hit: |
39ms |
get topic data: |
4ms |
get forum data: |
1ms |
get page messages: |
27ms |
update_topic_read_status (2120232): 27.02.2022 23:21:35: |
0ms |
get tp. blocked users: |
0ms |
get online users: |
47ms |
check new: |
1ms |
others: | 101ms |
total: | 233ms |
0 / 0 |