powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Упорядочиваем файлопомойку.
8 сообщений из 8, страница 1 из 1
Упорядочиваем файлопомойку.
    #34381712
КаДэ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Есть достаточно большая файлопомойка собранная за годы жызни на n-ном количестве ЦД... Сейчас все эти ЦД переливаются на винт, конечно же информация там будет дублироваться...
Вопрос знатокам: как проще всего обнаружить дубли? Приветствуются примерные алгоритмы и просто советы.
Моя идея - собрать весь список файлов в БД с путями и вычислить для каждого файла некий хэш или простую чек-сумму и разбирать уже сгруппированный результат по файлам.
Еще один вопрос знатокам: есть ли готовые решения? Приветствуются ссылки как на платный так и на бесплатный софт.
...
Рейтинг: 0 / 0
Упорядочиваем файлопомойку.
    #34381715
Осака Вестингауз
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Упорядочиваем файлопомойку.
    #34381716
White Owl
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Упорядочиваем файлопомойку.
    #34382193
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сам озадачивался подобным. Могу посоветовать следующее.

1) Можно установить eMule (или KAD) клиента и нацелить каталог доступа на корень документов. Потом открыть вкладку Server Log и понаблюдать. Туда будут сбрасыватся уведомления о дубликатах. Это процесс медленный (от нескольких минут до нескольких часов) т.к. клиент специально хеширует файлы отдельным потоком с низким приоритетом.

(Не забудьте сделать disconnect )

2) Отдельно я использовал утилиты treecrc, openssl и т.п. для выполнения той-же задачи, но с фильтрацией.

Пишу пример навскидку, поэтому сорри за глюки.
Код: plaintext
1.
2.
3.
treecrc c:\documents /V /L:log.txt
... 
@rem анализируем log.txt
(treecrc - стародревняя DOS-овская утилита для вычисления сумм CRC32)

Код: plaintext
1.
2.
3.
for (все файлы из каталога c:\documents) do openssl md5 >> log.txt
... 
@rem анализируем log.txt

Фильтруем нужный тип файлов из log.txt и выкуриваем дубликаты.
...
Рейтинг: 0 / 0
Упорядочиваем файлопомойку.
    #34382372
КаДэ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Осака, мне нужно не поиск по дискам организовать, а рассортировать ВСЕ файлы что есть :)

Белый Сов, пасиба попробую разобраться, но нечто подобное было в Total Commander - не очень помогло если честно.

Майтон, или кто еще знает, подскажите где поглядеть алгоритмы вычисления CRC и подобные им - думаю сам для себя сварганю утилидку...
...
Рейтинг: 0 / 0
Упорядочиваем файлопомойку.
    #34382377
Осака Вестингауз
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
в этих программах есть встроенные функции поиска дубликатов по имени, размеру, контрольной сумме
...
Рейтинг: 0 / 0
Упорядочиваем файлопомойку.
    #34382499
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
КаДэМайтон, или кто еще знает, подскажите где поглядеть алгоритмы вычисления CRC и подобные им - думаю сам для себя сварганю утилидку...

Вот исходничек. Не мой правда.
...
Рейтинг: 0 / 0
Упорядочиваем файлопомойку.
    #34386712
maXmo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
8 сообщений из 8, страница 1 из 1
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Упорядочиваем файлопомойку.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]