Гость
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск инструмента для ковыряния в данных / 25 сообщений из 27, страница 1 из 2
20.05.2019, 18:10
    #39815455
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Моя задача сравнить данные из двух источников.
Источники - разные системы, и как следствие и модели представления данных не идентичны и по формату не идентичны. Но обе системы экспортируют в CSV. Мне нужно найти где данные отличаются.
Я загружаю данные в эксел (некоторые не влязет, тут вобше засада), и начинается возня со связываен таблиц,
сравнением ключевых полей, сравнеий сумм, наличия тех-же ключей, ит.д.

Процесс проходится повторять когда приходят новые данные.
Хочется автоматизма и кнопочек.
Определить источники данных, view для данных и т.д. и просто по команде перезапускать.
И всё это на лету, без базы данных (окромя embedded), для одного пользователя.
Подскажите, какй инструмент мне нужен.
И есть такой бесплатный.
...
Рейтинг: 0 / 0
20.05.2019, 18:31
    #39815464
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Непонятно что за автоматизм требуется. Типа мышкой перетащил файлы 1.csv, 2.csv.
И получил сразу отчот по различиям?
...
Рейтинг: 0 / 0
20.05.2019, 18:52
    #39815472
exp98
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
mikron, где эксэл,там и винда. Условно бесплатный ТоталКоммандер (но и цена копеечная). Встроенная ф-ция построчного/бинарного сравнения. Есть полностью б/платный, что-то вроде kdiff, он кроссплатформенный вроде. Реализует аналогичную ф-цию сравнения.

А дальше, уж извините, приводите модели и форматы в соответствие с шаблоном и сами решайте: одно ли и то же "20-05-2019", "20190520" или 43605. Или сами по какм-либо эмпирическим наблюдениям выбирайте показометр и формат.
...
Рейтинг: 0 / 0
20.05.2019, 18:54
    #39815473
Dima T
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Visual FoxPro ?
...
Рейтинг: 0 / 0
20.05.2019, 19:03
    #39815481
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
maytonНепонятно что за автоматизм требуется. Типа мышкой перетащил файлы 1.csv, 2.csv.
И получил сразу отчот по различиям?
для начала визуализация. Типа экселя с фильтром и с vlookup.
Потом что бы созданное представление можно было записать
и использовать дальше для просмотра и анализа. Типа viev.
Ну а в завершении получится такой агрегированный view
со списком того что я наковырял.
Своего рода интерактивный data meaning.
В последсвии всё это сохранить и по мере поступления свежих данных пересчитывать.
...
Рейтинг: 0 / 0
20.05.2019, 19:08
    #39815485
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Dima TVisual FoxPro ?
Понятия не имею.
Что то среднее между эксель и базой данных на внешних данных
но без ручных sql и загрузки/ обновления базы по команде.
Чего нибуть с гуем.
...
Рейтинг: 0 / 0
20.05.2019, 19:13
    #39815486
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
OpenRefine пока нагуглил но вроде не совсем то.
...
Рейтинг: 0 / 0
20.05.2019, 19:19
    #39815488
Критик
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
mikron,

любая бесплатная версия СУБД
...
Рейтинг: 0 / 0
20.05.2019, 19:24
    #39815489
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
mikron, смотри. Задачку сравнения двух сsv файлов программисты решают просто.
Они открывают оба файла в среде. Например через Ctrl+D и смотряд difference.
Будут подсвечены те строки которые различаются.

На этом задача - решена. Какие визуализации и автоматизации тебе еще к этому надо?
Это решение - копеешное. Ноль баксов.

А то что ты ищешь возможно стоит денег. Или тебе надо еще сильнее нам всем объяснять
(желательно в картинках) чего ты ожидаешь на выходе. От этого цена решения будет
колебаться в порядках. Тоетсь плюс-минус 10,100, 1000 баксов.
...
Рейтинг: 0 / 0
20.05.2019, 19:33
    #39815494
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Я в первом посте написал «модели представления данных не идентичны»
Надеюсь понятно что это значит?
На пальцах обясню: в одном записано, 2019-05-20.
В другом записано понедельник 21 недели 2019 года.
Это если совсем просто.
...
Рейтинг: 0 / 0
20.05.2019, 19:41
    #39815499
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Смета только что подросла на порядок. А эти варианты дат будут перечислены нам? Или надо
будет вводить какой-то искусственный интеллект? Даже такой пустяк как отличить месяц от дня
может выливаться в дилемму если мало данных.
...
Рейтинг: 0 / 0
20.05.2019, 20:01
    #39815501
exp98
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Хорошо бы ещё не тексты в разных кодировках, причём не указано в каких и каждый раз в разных.
Какая хоть стабильность в форматах и моделях имеется?
...
Рейтинг: 0 / 0
20.05.2019, 20:20
    #39815509
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
maytonСмета только что подросла на порядок. А эти варианты дат будут перечислены нам? Или надо
будет вводить какой-то искусственный интеллект? Даже такой пустяк как отличить месяц от дня
может выливаться в дилемму если мало данных.
С датами проблемы нету, это только
как пример разного представления одних и тех же данных.
Главное понять - одни и теже данные могут иметь разное представление.
Тачка на плоскости может быть представлена как в полярных так и декартовых коорданатах, и во многих других системах / моделях. Но точка одна.
...
Рейтинг: 0 / 0
20.05.2019, 20:33
    #39815515
Roman Mejtes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
как я понял, автору нужно получить diff двух csv файлов
оптимальным решением будет делать скрипт или консольную программу, как мне кажется.
если нужно именно сравнение, то можно прочитать csv файлы, загружать нужно не все данные, а только необходимый минимум для сравнения и идентификации записи (то есть по сути identity поля), позиция строки в файле с трансформациями, если нужно.
Так большие файлы данных можно будет сравнить без больших объемов, а саму строку в итоге всегда можно найти в файле через Seek.
Все эти ключевые для сравнения данные приведенные к 1 значению. Так можно будет найти какая именно запись и где различается.
...
Рейтинг: 0 / 0
20.05.2019, 20:54
    #39815527
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Roman Mejtesкак я понял, автору нужно получить diff двух csv файлов


if all you have is a hammer, everything looks like a nail
...
Рейтинг: 0 / 0
20.05.2019, 21:24
    #39815533
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
mikron,

Можешь приаттачить образец твоих файлов?
...
Рейтинг: 0 / 0
20.05.2019, 22:49
    #39815543
wst
wst
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Если совсем особых требований нет, то связка python+jupyter+pandas покрывает заметную часть перечисленного.
...
Рейтинг: 0 / 0
21.05.2019, 01:42
    #39815568
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
maytonmikron,

Можешь приаттачить образец твоих файлов?
Тут конкретный формат или модель не так важны. Задача на другом уровне абстракции.
Нужен инструмент для решения подобного рода задач.
Похоже для моей задачи нашлось имя нашлось имя
...
Рейтинг: 0 / 0
21.05.2019, 09:35
    #39815641
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
mikronmaytonmikron,

Можешь приаттачить образец твоих файлов?
Тут конкретный формат или модель не так важны. Задача на другом уровне абстракции.
Нужен инструмент для решения подобного рода задач.
Похоже для моей задачи нашлось имя нашлось имя
Data Wrangling - это относится больше к технологиям bigdata. Это скорее подготовка маппера перед свёрткой.

Но в твоей первоначальной постановке (comparison) не было даже намёка на это.
...
Рейтинг: 0 / 0
21.05.2019, 10:00
    #39815653
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
maytonData Wrangling - это относится больше к технологиям bigdata.
с чего ты это взял? Там есть описани инструмента - как раз то что я написал: накликать мышкой, интерактивно и в реалном времени проверить результат, сохранит как скипт и проиграть по надобности. Такое на BigData не работает - очень сложно в реалном времени проворачивать. Да и не нужно.
...
Рейтинг: 0 / 0
21.05.2019, 10:26
    #39815661
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Вот господин восточной внешности с помощью Python + Pandas показывает как "выпасать" данные.

YouTube Video
...
Рейтинг: 0 / 0
21.05.2019, 10:55
    #39815685
exp98
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
mikron, а что в Германии не учат самостоятельно прорабатывать постановку задачи? и совет спросить там не у кого?
...
Рейтинг: 0 / 0
21.05.2019, 11:25
    #39815694
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
Для мышко-кликательной аналитики мы в своё время покупали QlikView и разрабатывали витрину данных.
Интересный продукт кстати. Посмотри может поможет.

https://www.qlik.com/us/products/qlikview
...
Рейтинг: 0 / 0
21.05.2019, 11:47
    #39815708
alex55555
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
maytonВ моё время когда я был DBA этот процесс назывался ETL. В части первых двух букв (Extract+Transform).
Он и сейчас так называется. Автору надо про букву T читать, ну и инструменты для ETL с уклоном на букву T искать.
...
Рейтинг: 0 / 0
21.05.2019, 12:09
    #39815732
mikron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск инструмента для ковыряния в данных
mayton,
Qlik хороший продукт, и платный :)
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск инструмента для ковыряния в данных / 25 сообщений из 27, страница 1 из 2
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]