powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск инструмента для ковыряния в данных
27 сообщений из 27, показаны все 2 страниц
Поиск инструмента для ковыряния в данных
    #39815455
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Моя задача сравнить данные из двух источников.
Источники - разные системы, и как следствие и модели представления данных не идентичны и по формату не идентичны. Но обе системы экспортируют в CSV. Мне нужно найти где данные отличаются.
Я загружаю данные в эксел (некоторые не влязет, тут вобше засада), и начинается возня со связываен таблиц,
сравнением ключевых полей, сравнеий сумм, наличия тех-же ключей, ит.д.

Процесс проходится повторять когда приходят новые данные.
Хочется автоматизма и кнопочек.
Определить источники данных, view для данных и т.д. и просто по команде перезапускать.
И всё это на лету, без базы данных (окромя embedded), для одного пользователя.
Подскажите, какй инструмент мне нужен.
И есть такой бесплатный.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815464
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Непонятно что за автоматизм требуется. Типа мышкой перетащил файлы 1.csv, 2.csv.
И получил сразу отчот по различиям?
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815472
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron, где эксэл,там и винда. Условно бесплатный ТоталКоммандер (но и цена копеечная). Встроенная ф-ция построчного/бинарного сравнения. Есть полностью б/платный, что-то вроде kdiff, он кроссплатформенный вроде. Реализует аналогичную ф-цию сравнения.

А дальше, уж извините, приводите модели и форматы в соответствие с шаблоном и сами решайте: одно ли и то же "20-05-2019", "20190520" или 43605. Или сами по какм-либо эмпирическим наблюдениям выбирайте показометр и формат.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815473
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Visual FoxPro ?
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815481
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonНепонятно что за автоматизм требуется. Типа мышкой перетащил файлы 1.csv, 2.csv.
И получил сразу отчот по различиям?
для начала визуализация. Типа экселя с фильтром и с vlookup.
Потом что бы созданное представление можно было записать
и использовать дальше для просмотра и анализа. Типа viev.
Ну а в завершении получится такой агрегированный view
со списком того что я наковырял.
Своего рода интерактивный data meaning.
В последсвии всё это сохранить и по мере поступления свежих данных пересчитывать.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815485
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TVisual FoxPro ?
Понятия не имею.
Что то среднее между эксель и базой данных на внешних данных
но без ручных sql и загрузки/ обновления базы по команде.
Чего нибуть с гуем.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815486
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
OpenRefine пока нагуглил но вроде не совсем то.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815488
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron,

любая бесплатная версия СУБД
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815489
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron, смотри. Задачку сравнения двух сsv файлов программисты решают просто.
Они открывают оба файла в среде. Например через Ctrl+D и смотряд difference.
Будут подсвечены те строки которые различаются.

На этом задача - решена. Какие визуализации и автоматизации тебе еще к этому надо?
Это решение - копеешное. Ноль баксов.

А то что ты ищешь возможно стоит денег. Или тебе надо еще сильнее нам всем объяснять
(желательно в картинках) чего ты ожидаешь на выходе. От этого цена решения будет
колебаться в порядках. Тоетсь плюс-минус 10,100, 1000 баксов.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815494
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я в первом посте написал «модели представления данных не идентичны»
Надеюсь понятно что это значит?
На пальцах обясню: в одном записано, 2019-05-20.
В другом записано понедельник 21 недели 2019 года.
Это если совсем просто.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815499
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Смета только что подросла на порядок. А эти варианты дат будут перечислены нам? Или надо
будет вводить какой-то искусственный интеллект? Даже такой пустяк как отличить месяц от дня
может выливаться в дилемму если мало данных.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815501
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хорошо бы ещё не тексты в разных кодировках, причём не указано в каких и каждый раз в разных.
Какая хоть стабильность в форматах и моделях имеется?
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815509
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonСмета только что подросла на порядок. А эти варианты дат будут перечислены нам? Или надо
будет вводить какой-то искусственный интеллект? Даже такой пустяк как отличить месяц от дня
может выливаться в дилемму если мало данных.
С датами проблемы нету, это только
как пример разного представления одних и тех же данных.
Главное понять - одни и теже данные могут иметь разное представление.
Тачка на плоскости может быть представлена как в полярных так и декартовых коорданатах, и во многих других системах / моделях. Но точка одна.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815515
Roman Mejtes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
как я понял, автору нужно получить diff двух csv файлов
оптимальным решением будет делать скрипт или консольную программу, как мне кажется.
если нужно именно сравнение, то можно прочитать csv файлы, загружать нужно не все данные, а только необходимый минимум для сравнения и идентификации записи (то есть по сути identity поля), позиция строки в файле с трансформациями, если нужно.
Так большие файлы данных можно будет сравнить без больших объемов, а саму строку в итоге всегда можно найти в файле через Seek.
Все эти ключевые для сравнения данные приведенные к 1 значению. Так можно будет найти какая именно запись и где различается.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815527
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roman Mejtesкак я понял, автору нужно получить diff двух csv файлов


if all you have is a hammer, everything looks like a nail
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815533
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron,

Можешь приаттачить образец твоих файлов?
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815543
wst
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если совсем особых требований нет, то связка python+jupyter+pandas покрывает заметную часть перечисленного.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815568
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonmikron,

Можешь приаттачить образец твоих файлов?
Тут конкретный формат или модель не так важны. Задача на другом уровне абстракции.
Нужен инструмент для решения подобного рода задач.
Похоже для моей задачи нашлось имя нашлось имя
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815641
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikronmaytonmikron,

Можешь приаттачить образец твоих файлов?
Тут конкретный формат или модель не так важны. Задача на другом уровне абстракции.
Нужен инструмент для решения подобного рода задач.
Похоже для моей задачи нашлось имя нашлось имя
Data Wrangling - это относится больше к технологиям bigdata. Это скорее подготовка маппера перед свёрткой.

Но в твоей первоначальной постановке (comparison) не было даже намёка на это.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815653
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonData Wrangling - это относится больше к технологиям bigdata.
с чего ты это взял? Там есть описани инструмента - как раз то что я написал: накликать мышкой, интерактивно и в реалном времени проверить результат, сохранит как скипт и проиграть по надобности. Такое на BigData не работает - очень сложно в реалном времени проворачивать. Да и не нужно.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815661
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот господин восточной внешности с помощью Python + Pandas показывает как "выпасать" данные.

YouTube Video
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815685
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron, а что в Германии не учат самостоятельно прорабатывать постановку задачи? и совет спросить там не у кого?
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815694
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Для мышко-кликательной аналитики мы в своё время покупали QlikView и разрабатывали витрину данных.
Интересный продукт кстати. Посмотри может поможет.

https://www.qlik.com/us/products/qlikview
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815708
alex55555
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonВ моё время когда я был DBA этот процесс назывался ETL. В части первых двух букв (Extract+Transform).
Он и сейчас так называется. Автору надо про букву T читать, ну и инструменты для ETL с уклоном на букву T искать.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815732
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
Qlik хороший продукт, и платный :)
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815734
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikronmayton,
Qlik хороший продукт, и платный :)
Ну и что с того.

Тебе 30-дневного периода хватит чтобы решить задачу 1 раз. А потом и решить нужно его покупать или нет.
...
Рейтинг: 0 / 0
Поиск инструмента для ковыряния в данных
    #39815745
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
alex55555,
ETL и ELT похоже только на первый взгляд.
Разница в подходах.
...
Рейтинг: 0 / 0
27 сообщений из 27, показаны все 2 страниц
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск инструмента для ковыряния в данных
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]