|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Моя задача сравнить данные из двух источников. Источники - разные системы, и как следствие и модели представления данных не идентичны и по формату не идентичны. Но обе системы экспортируют в CSV. Мне нужно найти где данные отличаются. Я загружаю данные в эксел (некоторые не влязет, тут вобше засада), и начинается возня со связываен таблиц, сравнением ключевых полей, сравнеий сумм, наличия тех-же ключей, ит.д. Процесс проходится повторять когда приходят новые данные. Хочется автоматизма и кнопочек. Определить источники данных, view для данных и т.д. и просто по команде перезапускать. И всё это на лету, без базы данных (окромя embedded), для одного пользователя. Подскажите, какй инструмент мне нужен. И есть такой бесплатный. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 18:10 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Непонятно что за автоматизм требуется. Типа мышкой перетащил файлы 1.csv, 2.csv. И получил сразу отчот по различиям? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 18:31 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
mikron, где эксэл,там и винда. Условно бесплатный ТоталКоммандер (но и цена копеечная). Встроенная ф-ция построчного/бинарного сравнения. Есть полностью б/платный, что-то вроде kdiff, он кроссплатформенный вроде. Реализует аналогичную ф-цию сравнения. А дальше, уж извините, приводите модели и форматы в соответствие с шаблоном и сами решайте: одно ли и то же "20-05-2019", "20190520" или 43605. Или сами по какм-либо эмпирическим наблюдениям выбирайте показометр и формат. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 18:52 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Visual FoxPro ? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 18:54 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
maytonНепонятно что за автоматизм требуется. Типа мышкой перетащил файлы 1.csv, 2.csv. И получил сразу отчот по различиям? для начала визуализация. Типа экселя с фильтром и с vlookup. Потом что бы созданное представление можно было записать и использовать дальше для просмотра и анализа. Типа viev. Ну а в завершении получится такой агрегированный view со списком того что я наковырял. Своего рода интерактивный data meaning. В последсвии всё это сохранить и по мере поступления свежих данных пересчитывать. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 19:03 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Dima TVisual FoxPro ? Понятия не имею. Что то среднее между эксель и базой данных на внешних данных но без ручных sql и загрузки/ обновления базы по команде. Чего нибуть с гуем. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 19:08 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
OpenRefine пока нагуглил но вроде не совсем то. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 19:13 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
mikron, любая бесплатная версия СУБД ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 19:19 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
mikron, смотри. Задачку сравнения двух сsv файлов программисты решают просто. Они открывают оба файла в среде. Например через Ctrl+D и смотряд difference. Будут подсвечены те строки которые различаются. На этом задача - решена. Какие визуализации и автоматизации тебе еще к этому надо? Это решение - копеешное. Ноль баксов. А то что ты ищешь возможно стоит денег. Или тебе надо еще сильнее нам всем объяснять (желательно в картинках) чего ты ожидаешь на выходе. От этого цена решения будет колебаться в порядках. Тоетсь плюс-минус 10,100, 1000 баксов. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 19:24 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Я в первом посте написал «модели представления данных не идентичны» Надеюсь понятно что это значит? На пальцах обясню: в одном записано, 2019-05-20. В другом записано понедельник 21 недели 2019 года. Это если совсем просто. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 19:33 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Смета только что подросла на порядок. А эти варианты дат будут перечислены нам? Или надо будет вводить какой-то искусственный интеллект? Даже такой пустяк как отличить месяц от дня может выливаться в дилемму если мало данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 19:41 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Хорошо бы ещё не тексты в разных кодировках, причём не указано в каких и каждый раз в разных. Какая хоть стабильность в форматах и моделях имеется? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 20:01 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
maytonСмета только что подросла на порядок. А эти варианты дат будут перечислены нам? Или надо будет вводить какой-то искусственный интеллект? Даже такой пустяк как отличить месяц от дня может выливаться в дилемму если мало данных. С датами проблемы нету, это только как пример разного представления одних и тех же данных. Главное понять - одни и теже данные могут иметь разное представление. Тачка на плоскости может быть представлена как в полярных так и декартовых коорданатах, и во многих других системах / моделях. Но точка одна. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 20:20 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
как я понял, автору нужно получить diff двух csv файлов оптимальным решением будет делать скрипт или консольную программу, как мне кажется. если нужно именно сравнение, то можно прочитать csv файлы, загружать нужно не все данные, а только необходимый минимум для сравнения и идентификации записи (то есть по сути identity поля), позиция строки в файле с трансформациями, если нужно. Так большие файлы данных можно будет сравнить без больших объемов, а саму строку в итоге всегда можно найти в файле через Seek. Все эти ключевые для сравнения данные приведенные к 1 значению. Так можно будет найти какая именно запись и где различается. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 20:33 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Roman Mejtesкак я понял, автору нужно получить diff двух csv файлов if all you have is a hammer, everything looks like a nail ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 20:54 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
mikron, Можешь приаттачить образец твоих файлов? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 21:24 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Если совсем особых требований нет, то связка python+jupyter+pandas покрывает заметную часть перечисленного. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2019, 22:49 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
maytonmikron, Можешь приаттачить образец твоих файлов? Тут конкретный формат или модель не так важны. Задача на другом уровне абстракции. Нужен инструмент для решения подобного рода задач. Похоже для моей задачи нашлось имя нашлось имя ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 01:42 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
mikronmaytonmikron, Можешь приаттачить образец твоих файлов? Тут конкретный формат или модель не так важны. Задача на другом уровне абстракции. Нужен инструмент для решения подобного рода задач. Похоже для моей задачи нашлось имя нашлось имя Data Wrangling - это относится больше к технологиям bigdata. Это скорее подготовка маппера перед свёрткой. Но в твоей первоначальной постановке (comparison) не было даже намёка на это. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 09:35 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
maytonData Wrangling - это относится больше к технологиям bigdata. с чего ты это взял? Там есть описани инструмента - как раз то что я написал: накликать мышкой, интерактивно и в реалном времени проверить результат, сохранит как скипт и проиграть по надобности. Такое на BigData не работает - очень сложно в реалном времени проворачивать. Да и не нужно. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 10:00 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Вот господин восточной внешности с помощью Python + Pandas показывает как "выпасать" данные. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 10:26 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
mikron, а что в Германии не учат самостоятельно прорабатывать постановку задачи? и совет спросить там не у кого? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 10:55 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
Для мышко-кликательной аналитики мы в своё время покупали QlikView и разрабатывали витрину данных. Интересный продукт кстати. Посмотри может поможет. https://www.qlik.com/us/products/qlikview ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 11:25 |
|
Поиск инструмента для ковыряния в данных
|
|||
---|---|---|---|
#18+
maytonВ моё время когда я был DBA этот процесс назывался ETL. В части первых двух букв (Extract+Transform). Он и сейчас так называется. Автору надо про букву T читать, ну и инструменты для ETL с уклоном на букву T искать. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 11:47 |
|
|
start [/forum/topic.php?fid=16&msg=39815472&tid=1339940]: |
0ms |
get settings: |
8ms |
get forum list: |
11ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
140ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
58ms |
get tp. blocked users: |
1ms |
others: | 13ms |
total: | 253ms |
0 / 0 |